CN107203526A - 一种查询串语义需求分析方法及装置 - Google Patents

一种查询串语义需求分析方法及装置 Download PDF

Info

Publication number
CN107203526A
CN107203526A CN201610150692.7A CN201610150692A CN107203526A CN 107203526 A CN107203526 A CN 107203526A CN 201610150692 A CN201610150692 A CN 201610150692A CN 107203526 A CN107203526 A CN 107203526A
Authority
CN
China
Prior art keywords
semantic
template
query string
candidate
semantic template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610150692.7A
Other languages
English (en)
Other versions
CN107203526B (zh
Inventor
王思聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Autonavi Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Autonavi Information Technology Co Ltd filed Critical Autonavi Information Technology Co Ltd
Priority to CN201610150692.7A priority Critical patent/CN107203526B/zh
Publication of CN107203526A publication Critical patent/CN107203526A/zh
Application granted granted Critical
Publication of CN107203526B publication Critical patent/CN107203526B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种查询串语义需求分析的方法及装置,本发明实施例提供的方法包括:对接收到的查询串进行分词,获得分词查询串;从查询串所对应的语义模板库中获取匹配分词查询串的候选语义模板;计算候选语义模板的语义评分,将语义评分最高的候选语义模板作为最优语义模板,并根据最优语义模板构造检索方案。本发明实施例提供的一种查询串语义需求分析的方法及装置,克服了现有技术的不足,通过语义需求分析在更短的时间内为用户提供更为满足用户实际需求的检索方案,检索方案的获取方式灵活简便、速度快、精确度高,从根本上提高了用户体验。

Description

一种查询串语义需求分析方法及装置
技术领域
本发明涉及语义分析领域,具体涉及一种查询串语义需求分析方法及装置。
背景技术
当前,搜索查询已经是人们使用地图产品的重要业务,通过搜索查询,人们可以实现对特定目的地、生活类服务、路途规划的应用需求。其中,对于用户输入的查询串,尤其是占比逐步增大的语音输入的查询串,包含有大量的用户语义需求需要搜索引擎解析。现有技术使用的搜索查询方式较为简单,使用较为简单的匹配规则从关键词词表中获取与用户输入查询串的匹配的关键词,最终根据关键词构造检索方案。但是,现有技术关键词依靠人工枚举获得,使得关键词词表难以全面覆盖用户输入的查询串,且获取匹配的关键词的时间较长。显然,现有技术很难在短时间内根据查询串获取匹配查询串是实际语义需求检索方案。
发明内容
第一方面,本发明实施例提供了一种查询串语义需求分析方法,该方法包括:对接收到的查询串进行分词,获得分词查询串;从查询串所对应的语义模板库中获取匹配分词查询串的候选语义模板;计算候选语义模板的语义评分,将语义评分最高的候选语义模板作为最优语义模板,并根据最优语义模板构造检索方案。
第二方面,本发明实施例提供一种查询串语义需求分析系统装置,该系统装置包括:分词模块,用于对接收到的查询串进行分词获得分词查询串;候选语义模板获取模块,用于从所述查询串所对应的语义模板库中获取匹配所述分词查询串的候选语义模板;检索方案构造模块,用于分别计算所述候选语义模板的语义评分,将语义评分最高的所述候选语义模板作为最优语义模板,并根据最优语义模板构造检索方案。
本发明实施例提供的一种查询串语义需求分析的方法及装置,克服了现有技术的不足,通过语义需求分析在更短的时间内为用户提供更为满足用户实际需求的检索方案,检索方案的获取方式灵活简便、速度快、精确度高,从根本上提高了用户体验。
附图说明
图1为本发明实施例提供的一种查询串语义需求分析的方法流程示意图;
图2为本发明实施例提供的一种查询串语义需求分析方法的具体流程示意图;
图3为本发明实施例提供的语义模板库中部分语义模板的存储示意图;
图4为本发明实施例提供的需求类别示意图;
图5为本发明实施例提供的黑白名单示意图;
图6为本发明实施例提供的另一种查询串语义需求分析方法;
图7为本发明实施例提供的另一种查询串语义需求分析方法;
图8为本发明实施例提供的一种查询串语义需求分析系统装置;
图9为本发明实施例提供的一种查询串语义需求分析终端装置。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
图1为本发明实施例提供的一种查询串语义需求分析的方法流程示意图,如图1所示,该方法的具体步骤包括:
步骤S1101,对接收到的查询串进行分词,获得分词查询串;
步骤S1102,从查询串所对应的语义模板库中获取匹配分词查询串的候选语义模板;
步骤S1103,计算候选语义模板的语义评分,将语义评分最高的候选语义模板作为最优语义模板,并根据最优语义模板构造检索方案。
本发明实施例提供的一种查询串语义需求分析的方法,克服了现有技术的不足,通过语义需求分析在更短的时间内为用户提供更为满足用户实际需求的检索方案,检索方案的获取方式灵活简便、速度快、精确度高,从根本上提高了用户体验。
图2为本发明实施例提供的一种查询串语义需求分析方法的具体流程示意图,如图2所示,本方法包括步骤S201-步骤S208:
步骤S201,获取查询串及搜索范围,并用搜索范围标记查询串;
需要说明的是,搜索范围包括但不限于地理范围(国家、城市、乡镇等)、,由于搜索范围中较为常用的是以某城市为范围展开搜索查询,因此,以搜索范围为城市为例,对本发明实施例进行说明。
用户上报查询串及搜索范围方式包括:方式一,通过文字输入上报查询串及搜索城市,如:选取搜索城市为“北京”,文字输入“我要去国家图书馆”;方式二,通过语音输入上报查询串及搜索城市,如:选取搜索城市为“北京”,语音输入“我要去国家图书馆“,系统对语音输入内容进行识别获得查询串;当用户仅上报查询串而不上报搜索城市时,则定位当前位置所在城市作为搜索城市或者对查询串进行位置分析获得查询串所对应的搜索城市。
步骤S202,判断查询串是否属于黑白名单,当查询串不属于黑白名单时,执行步骤S204,否则执行步骤S203从黑白名单中获取查询串所对应的黑白名单词条,根据该黑白名单词条的语义需求类别构造检索方案;
需要说明的是,黑白名单是通过人工线下挖掘获得,黑白名单中包含多个黑白名单词条以及每个黑白名单词条所对应的语义需求类别。举例说明:黑白名单词条“地铁路线图”对应的语义需求类别为“关键词”,则最终获得的检索方案为:为用户提供XX城市的地铁路线图。黑白名单的存在简化了语义需求判断过程,加快了构造检索方案的速度。
步骤S204,根据分词规则对地址查询串进行分词处理,获得分词查询串。如:“从望京医院怎么到方恒国际中心啊”,分词后会返回“从/望京医院/怎么到/方恒国际中心/啊”的分词查询串。分词规则即指采用“匹配分词词典”与“消除歧义算法”结合的原理对查询串进行分词,具体的:从分词词典获取与查询串匹配的分词查询串(由词典中的多个分词片段组成),当匹配获得多个分词查询串时,采用消除歧义算法对多个分词查询串进行选择,获取最匹配查询串的分词查询串。
步骤S205,获取候选语义模板;
确定搜索城市所对应的语义模板库,从语义模板库中获得匹配分词查询串的包括多个模板词的候选语义模板,候选语义模板由模板词和实体词构成。特殊的,当获得的候选语义模板的数量为1时,将该候选语义模板直接作为最优语义模板,并执行步骤S207。本实施例采用AC自动机算法从语义模板库中获得匹配分词查询串的包括多个模板词的候选语义模板,AC自动机算法仅是实现本发明实施例的一种手段,并不限制本发明。
AC自动机(Aho-Corasick automaton):一种著名的多模匹配算法,该算法在1975年产生于贝尔实验室。该算法通过构建一颗特殊的trie树,使主串可以查找多个模式串。其中,Trie树即字典树,又称单词查找树或键树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点在于可以最大限度地减少无谓的字符串比较,查询效率比哈希表高。
语义模板库可以是一种字典树(因此,也称语义模板库为语义模板树)。该语义模板库由多个模板词组成。在本发明实施例中字典树仅是语义模板库的一种实现形式,但并不限定本发明。
图3为本发明实施例提供的语义模板库中部分语义模板的存储示意图,如图3所示,此部分语义模板库中包含语义模板:
[D:train_查询]自[W:1-30][D:train_到][W:1-30];
[D:train_查询][D:train_附近][D:train_有][W:1-30]吗;
[D:train_查询][D:train_附近][D:train_有][W:1-30];
[D:train_查询][W:1-30][D:train_公交][D:train_位置];
[D:train_出行方式][D:train_到][W:1-30][D:train_怎么];
[D:train_出行方式][D:train_起始][D:train_我][D:train_到][W:1-30];
[D:train_出行方式][D:train_起始][W:1-30][D:train_到][W:1-30]。
模板词与分词查询串携带词语的对应关系参见表1,也就是说当分词查询串携带有与模板词匹配的词语时,则认定该分词查询串与模板词匹配。模板词可以人工线下挖掘,并预设与之匹配的词语,再以语义模板库的形式进行存储。显然,能够根据不同的语言需要,建立不同语言种类的语义模板库,如:汉语、英语。
表1模板词及地址查询串携带词语
模板词 分词查询串携带词语
[D:train_位置] 位置、的位置
[D:train_起始] 怎么样从、怎样、从、咋从
[D:train_出行方式] 怎么才能、怎么才可以
[D:train_查询] 查询、找一下、找、带我找一下
[D:train_附近] 附近、附近有什么、旁边、这附近
[D:train_我] 我、这边、这里
[D:train_到] 到、达到、现在要去、至、去、到达、怎么到、怎么去
[D:train_公交] 公交、怎么坐公交车、要怎么坐车、怎么坐车
步骤S206,计算每个候选语义模板的语义评分,具体计算过程为:获取候选语义模板所包含的所有模板词以及该模板词的语义评分,将所有模板词的语义评分进行线性加权求和获得求和结果(求和分值),求和结果即为该候选语义模板的语义评分,将语义评分最高的候选语义模板作为最优语义模板。
不同的模板词其语义评分不同(也可能相同),具体语义评分的值根据模板词的类型、长度来设定,一般规定:模板词的长度越长语义评分越高;模板词的类型所表达的具体含义越能清楚明确的表明用户语义需求,模板词的语义评分越高。模板词的具体需求类别及语义评分详见图5及相关文字说明。计算候选模板语义评分的具体方式包括但并不仅限于线性加权求和。候选语义模板的语义评分越高说明该候选语义模板的语义需求越明显,更能符合用户的实际需求。
步骤S207,去除最优语义模板中的冗余信息噪音,获得去冗语义模板;
需要说明的是,本步骤具有两种不同的实施方式来实现获得去冗语义模板的目的。实施方式一:根据POI资源库中存储的POI对最优语义模板中的实体词进行最大正向匹配,获得与实体词对应的POI名称,进而将实体词中的冗余信息噪音去除,获得去冗语义模板(此时,实体词=POI名称);实施方式二:根据POI资源库中存储的POI对最优语义模板中的实体词进行最大正向匹配,获得与实体才对应的POI名称,用POI名称替换最优语义模板中的实体词,获得具有POI名称的去冗语义模板。
POI资源库用于存储多个POI数据,POI是“Point of Interest”的缩写,可以翻译成“信息点”,每个POI包含四方面信息,名称、类别、经度纬度、附近的酒店饭店商铺等信息。本实施例所提供的POI资源库根据人工线下挖掘进行定期更新。
随着智能手机语音输入的份额增多,用户输入的查询串越来越变得口语化,对最优语义模板进行去除冗余噪音处理,去除了最优语义模板与构造检索方案无关的冗余信息噪音,以便更好的构建检索方案。
步骤S208,构造检索方案。
根据去冗语义模板获取需求类型,根据需求类型及去冗语义模板构建检索方案。也就是说,检索方案包括:需求类型、检索内容。需要说明的是,构造检索方案可以根据去冗语义模板构造,亦可以根据最优语义模板构造。
需求类别根据语义模板的语义需求确定。图4为本发明实施例提供的需求类别示意图,如图4所示,本发明实施例所提供的需求类型包括四大类:指令、路线规划及导航、关键字、功能,每一类又分为不同子类,指令包括指令控制(语言切换、功能切换)、路况查询、定位;路线规划及导航包括路线规划(出行方式)、导航;关键字包括POI查询、泛需求(品牌词、类别词、距离词);功能包括闲聊、二次询问。不同类别的模板词其语义评分不相同,具体类别及语义评分详见图4,显然图中仅为本发明实施例对需求类别及语义评分的一种划分方式,并不限定本发明的技术方案。
图5为本发明实施例提供的黑白名单示意图,如图5所示,黑白名单用于记录黑白名单词条以及每个黑白名单词条所对应的语义需求类别。黑白名单由黑名单和白名单组成,黑名单用于记录线下人工挖掘获得的具有特定语义需求的词条,如:“电子地图”、“公交站台”、“公交站牌”,白名单用于记录线下人工挖掘获得的无需进行语义需求分析便可构造检索方案的词条,以及用户使用频率较高的查询串,如:“我的位置”、“现在在哪”、“从天安门到南锣鼓巷”。
本发明根据用户提供的查询串与搜索范围,并用搜索范围标记查询串,从对应搜索范围的语义模板库中获得与查询串匹配的候选语义模板,根据语义评分挑选最优语义模板,对最优语义模板进行冗余信息噪音去除获得去冗语义模板,根据去冗语义模板构造检索方案,提升搜索质量。
图6为本发明实施例提供的一个实施例示意图。如图6所示,为了更准确的描述本发明实施例所提供的方法,以用户输入查询串q=“去国家图书馆那怎么去”、搜索城市ad=“北京市”(获取搜索城市的具体过程详见步骤S201)为例,对本发明提供的方法进行具体描述:
第一步,将搜索城市标记在查询串上,获得带有搜索城市标记的查询串q&ad;
第二步,判断q&ad是否属于黑白名单,由于本实施例预设q&ad不属于黑白名单,所以直接进行下一步;
第三步,对q&ad进行分词处理,根据q&ad中的ad以及分词规则对q进行分词,获得分词查询串A=“去/国家/图书/馆/那/怎么/去”;
第四步,获取ad所对应的语义模板库,并采用AC自动机从语义模板库中获取与A匹配的带有多个模板词的候选语义模板,假设获得两个候选语义模板分别为:
第一候选语义模板AH1:[W:1-30][D:train_怎么][D:train_到],对应分词查询串片段为[W:1-30]=“去国家图书馆那”,[D:train_怎么]=“怎么”,[D:train_到]=“去”;
第二候选语义模板AH2:[D:train_到][W:2-30][D:train_怎么],对应查询串片段为[D:train_到]=“去”,[W:2-30]=“国家图书馆那”,[D:train_怎么]=“怎么去”。
第五步,计算第一候选语义模板及第二候选语义模板的语义评分,具体的各模板词的语义评分为:[D:train_怎么]=4,[D:train_怎么]=6,[W:1-30]=2,[W:2-30]=4,所以,第一候选语义模板的语义评分为12,第二候选语义模板的语义评分为14,因此,最终选择AH2作为最优语义模板;
第六步,根据POI资源库去除AH2的冗余信息噪音,根据ad从POI资源库中获取北京市的POI数据资源,获取实体词[W:2-30]“国家图书馆那”,将(通过单模算法)实体词“国家图书馆那”与北京市的POI数据资源进行匹配,获得POI名称,即:POI=“国家图书馆”;将[W:1-30]用POI名称“国家图书馆”替换,获得去冗语义模板AH2’=[D:train_到][POI][D:train_怎么];根据AH2’构造检索方案:路径规划,起始位置:我的位置,终点位置:国家图书馆。显然,“路径规划”为需求类型,“起始位置:我的位置,终点位置:国家图书馆。”为检索内容。
图7为本发明实施例提供的另一种查询串语义需求分析方法,如图7所示,该方法包括:
步骤S401,接收用户提供的实际需求,获取查询串q和搜索城市ad;
用户提供实际需求的方式不唯一,可以通过文字输入、语音输入,还可以通过点击电子地图进行输入;在用户输入实际需求之后,对实际需求进行识别,获取用户输入的查询串q和搜索城市ad。
步骤S402,获取检索方案,并根据检索方案为用户提供实际需求应答。需要说明的是,本步骤所获取的检索方案即为步骤S208所构造的检索方案。
基于上文所描述的查询串语义分析方法所产生的查询串语义分析系统,该系统包括,系统装置及终端装置。
图8为本发明实施例提供的一种查询串语义需求分析系统装置,如图8所示,该系统装置1包括:分词模块11、候选语义模板获取模块12和检索方案构造13;具体地,
分词模块11用于对接收到的查询串q进行分词获得分词查询串A;
候选语义模板获取模块12用于从查询串所对应的语义模板库中获取匹配分词查询串A的候选语义模板AH;
检索方案构造模块13用于分别计算候选语义模板AH的语义评分,将语义评分最高的候选语义模板AH作为最优语义模板AY,并根据最优语义模板AY构造检索方案W。
分词模块11除了接收到查询串q以外,还接收到了搜索范围ad,将搜索范围ad标记在查询串q上,获得带有搜索范围ad标记的查询串q&ad;具体的,用户上报查询串与搜索范围方式包括:方式一,通过文字输入上报查询串及搜索城市;方式二,通过语音输入上报查询串及搜索城市;
分词模块11还用于判断查询串q&ad是否存在于黑白名单,当查询串q&ad存在于黑白名单时,根据查询串q&ad对应的黑白名单词条的语义需求类别构造检索方案W;否则,根据分词规则对查询串q&ad进行分词获得分词查询串A;
候选语义模板获取模块12,具体包括:搜索范围获取单元用于获取查询串q所对应的搜索范围ad;候选语义模板匹配单元用于从与搜索范围ad对应的语义模板库中获得匹配分词查询串A的候选语义模板AH;
具体的,候选语义模板获取模块12用于获取与搜索范围ad对应的语义模板库,从语义模板库中获取匹配分词查询串A的至少一个候选语义模板AH,特殊地,当候选语义模板AH的数量为1时,直接将该候选语义模板AH作为最优语义模板输出;本实施例采用AC自动机算法从语义模板库中获得匹配分词查询串的包括多个模板词的候选语义模板;
检索方案构造模块13,具体包括:语义评分获得单元用于获取候选语义模板AH中包含的模板词,并获得模板词的语义评分,模板词的语义评分根据模板词的类型以及模板词的长度进行设定;语义评分计算单元用于对候选语义模板AH中包含的所有模板词的语义评分进行线性加权求和获得求和结果,求和结果为候选语义模板AH的语义评分;去冗单元用于根据POI资源库去除语义评分最高的候选语义模板AH中实体词的冗余信息噪音,获得去冗语义模板,并将去冗语义模板作为最优语义模板;
去冗单元的另外一种实施方式为:获取最优语义模板中的实体词,并根据POI资源库最大正向匹配实体词,获得实体词对应的POI名称,用POI名称替换最优语义模板中的实体词,获得去冗语义模板,并将去冗语义模板作为最优语义模板。
本发明实施例还提供了一种终端装置2,用于提供查询串q和搜索范围ad,以及根据检索方案W提供用户实际需求应答,该终端装置详见图9及相关文字说明。
图9为本发明实施例提供的一种查询串语义需求分析终端装置,如图9所示,该终端装置包括:
需求获取模块21,用于接收用户提供的实际需求IN,根据实际需求IN获取查询串q和搜索城市ad;
需要说明的是,用户提供需求IN的方式不唯一,可以通过文字输入、语音输入,还可以通过点击电子地图进行输入,在用户输入需求IN之后,需求获取模块21对需求IN进行识别,获取用户输入的查询串q和搜索城市ad。
应答输出模块22,用于获取检索方案W,并根据检索方案W为用户提供实际需求应答OUT;
用户23用于提供实际需求IN,并接收实际需求应答OUT;系统装置1用于接收查询串q和搜索城市ad,并为应答输出模块22提供检索方案W,该系统装置1即为图8及相关文字所描述的装置。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (11)

1.一种查询串语义分析方法,其特征在于,所述方法包括:
对接收到的查询串进行分词,获得分词查询串;
从所述查询串所对应的语义模板库中获取匹配所述分词查询串的候选语义模板;
分别计算所述候选语义模板的语义评分,将语义评分最高的候选语义模板作为最优语义模板,并根据所述最优语义模板构造检索方案。
2.根据权利要求1所述的方法,其特征在于,从所述查询串所对应的语义模板库中获取匹配所述分词查询串的候选语义模板的步骤,具体包括:
获取所述查询串所对应的搜索范围;
获取与所述搜索范围对应的所述语义模板库,从所述语义模板库中获取匹配所述分词查询串的候选语义模板。
3.根据权利要求2所述的方法,其特征在于,所述搜索范围为搜索城市,所述获取所述查询串所对应的搜索范围的步骤,具体包括:
根据当前定位位置获取所述查询串所对应的搜索城市;并且/或者
对所述查询串进行位置分析,获取所述查询串所对应的搜索城市。
4.根据权利要求1所述的方法,其特征在于,所述从所述查询串所对应的语义模板库中获取匹配所述分词查询串的候选语义模板的步骤,具体还包括:
使用AC自动机从语义模板库中获取匹配所述分词查询串的候选语义模板。
5.根据权利要求1所述的方法,其特征在于,所述计算所述候选语义模板的语义评分的步骤,具体包括:
获取所述候选语义模板中包含的模板词,并获得所述模板词的语义评分,所述模板词的语义评分根据所述模板词的类型以及所述模板词的长度进行设定;
对所述候选语义模板中包含的所有模板词的语义评分进行线性加权求和获得求和结果,所述求和结果为所述候选语义模板的语义评分。
6.根据权利要求1所述的方法,其特征在于,所述将语义评分最高的候选语义模板作为最优语义模板的步骤,具体包括:
根据POI资源库去除所述语义评分最高的候选语义模板中实体词的冗余信息噪音,获得去冗语义模板,将所述去冗语义模板作为最优语义模板。
7.一种地址查询串语义分析系统装置,其特征在于,所述系统装置包括:
分词模块,用于对接收到的查询串进行分词获得分词查询串;
候选语义模板获取模块,用于从所述查询串所对应的语义模板库中获取匹配所述分词查询串的候选语义模板;
检索方案构造模块,用于分别计算所述候选语义模板的语义评分,将语义评分最高的所述候选语义模板作为最优语义模板,并根据最优语义模板构造检索方案。
8.根据权利要求7所述的系统装置,其特征在于,所述候选语义模板获取模块具体包括:
搜索范围获取单元,用于获取所述查询串所对应的搜索范围;
候选语义模板匹配单元,用于从与所述搜索范围对应的所述语义模板库中获得匹配所述分词查询串的候选语义模板。
9.根据权利要求7所述的系统装置,其特征在于,所述候选语义模板获取模块具体用于:使用AC自动机从语义模板库中获取匹配所述分词查询串的候选语义模板。
10.根据权利要求7所述的系统装置,其特征在于,所述检索方案构造模块具体包括:
语义评分获得单元,用于获取所述候选语义模板中包含的模板词,并获得所述模板词的语义评分,所述模板词的语义评分根据所述模板词的类型以及所述模板词的长度进行设定;
语义评分计算单元,用于对所述候选语义模板中包含的所有模板词的语义评分进行线性加权求和获得求和结果,所述求和结果为所述候选语义模板的语义评分。
11.根据权利要求10所述的系统装置,其特征在于,所述检索方案构造模块还包括:
去冗单元,用于根据POI资源库去除所述语义评分最高的候选语义模板中实体词的冗余信息噪音,获得去冗语义模板,将所述去冗语义模板作为最优语义模板。
CN201610150692.7A 2016-03-16 2016-03-16 一种查询串语义需求分析方法及装置 Active CN107203526B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610150692.7A CN107203526B (zh) 2016-03-16 2016-03-16 一种查询串语义需求分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610150692.7A CN107203526B (zh) 2016-03-16 2016-03-16 一种查询串语义需求分析方法及装置

Publications (2)

Publication Number Publication Date
CN107203526A true CN107203526A (zh) 2017-09-26
CN107203526B CN107203526B (zh) 2020-11-24

Family

ID=59903704

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610150692.7A Active CN107203526B (zh) 2016-03-16 2016-03-16 一种查询串语义需求分析方法及装置

Country Status (1)

Country Link
CN (1) CN107203526B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109446298A (zh) * 2018-08-22 2019-03-08 优视科技(中国)有限公司 模板匹配方法及装置、计算机设备及可读介质
CN109670163A (zh) * 2017-10-17 2019-04-23 阿里巴巴集团控股有限公司 信息识别方法、信息推荐方法、模板构建方法及计算设备
CN110147433A (zh) * 2019-05-21 2019-08-20 北京鸿联九五信息产业有限公司 一种基于字典树的文本模板提取方法
CN110413886A (zh) * 2019-07-17 2019-11-05 海信集团有限公司 一种兴趣点展示方法及装置
CN110750617A (zh) * 2018-07-06 2020-02-04 北京嘀嘀无限科技发展有限公司 确定输入文本与兴趣点间的相关性的方法和系统
CN110941631A (zh) * 2019-10-30 2020-03-31 联想(北京)有限公司 一种信息处理方法及电子设备
CN111708800A (zh) * 2020-05-27 2020-09-25 北京百度网讯科技有限公司 查询方法、装置及电子设备
CN113010768A (zh) * 2019-12-19 2021-06-22 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN113222492A (zh) * 2021-03-29 2021-08-06 北京中交兴路信息科技有限公司 一种车辆行驶线路类型的判别方法、装置、存储介质及终端

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090100045A1 (en) * 2007-09-30 2009-04-16 Nec (China) Co., Ltd. Device and method for adaptive service selection, query system and method
CN101467125A (zh) * 2006-04-19 2009-06-24 谷歌公司 查询词语的处理
CN102737039A (zh) * 2011-04-07 2012-10-17 北京百度网讯科技有限公司 索引建立方法、搜索方法和搜索结果排序方法及对应装置
CN103020164A (zh) * 2012-11-26 2013-04-03 华北电力大学 一种基于多语义分析和个性化排序的语义检索方法
CN103353894A (zh) * 2013-07-19 2013-10-16 武汉睿数信息技术有限公司 一种基于语义分析的数据搜索方法和系统
CN104991943A (zh) * 2015-07-10 2015-10-21 百度在线网络技术(北京)有限公司 音乐搜索方法及装置
CN105138511A (zh) * 2015-08-10 2015-12-09 北京思特奇信息技术股份有限公司 一种对搜索关键词进行语义分析的方法和系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101467125A (zh) * 2006-04-19 2009-06-24 谷歌公司 查询词语的处理
US20090100045A1 (en) * 2007-09-30 2009-04-16 Nec (China) Co., Ltd. Device and method for adaptive service selection, query system and method
CN102737039A (zh) * 2011-04-07 2012-10-17 北京百度网讯科技有限公司 索引建立方法、搜索方法和搜索结果排序方法及对应装置
CN103020164A (zh) * 2012-11-26 2013-04-03 华北电力大学 一种基于多语义分析和个性化排序的语义检索方法
CN103353894A (zh) * 2013-07-19 2013-10-16 武汉睿数信息技术有限公司 一种基于语义分析的数据搜索方法和系统
CN104991943A (zh) * 2015-07-10 2015-10-21 百度在线网络技术(北京)有限公司 音乐搜索方法及装置
CN105138511A (zh) * 2015-08-10 2015-12-09 北京思特奇信息技术股份有限公司 一种对搜索关键词进行语义分析的方法和系统

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109670163A (zh) * 2017-10-17 2019-04-23 阿里巴巴集团控股有限公司 信息识别方法、信息推荐方法、模板构建方法及计算设备
CN109670163B (zh) * 2017-10-17 2023-03-28 阿里巴巴集团控股有限公司 信息识别方法、信息推荐方法、模板构建方法及计算设备
CN110750617A (zh) * 2018-07-06 2020-02-04 北京嘀嘀无限科技发展有限公司 确定输入文本与兴趣点间的相关性的方法和系统
CN109446298A (zh) * 2018-08-22 2019-03-08 优视科技(中国)有限公司 模板匹配方法及装置、计算机设备及可读介质
CN110147433A (zh) * 2019-05-21 2019-08-20 北京鸿联九五信息产业有限公司 一种基于字典树的文本模板提取方法
CN110147433B (zh) * 2019-05-21 2021-01-29 北京鸿联九五信息产业有限公司 一种基于字典树的文本模板提取方法
CN110413886A (zh) * 2019-07-17 2019-11-05 海信集团有限公司 一种兴趣点展示方法及装置
CN110941631B (zh) * 2019-10-30 2024-01-23 联想(北京)有限公司 一种信息处理方法及电子设备
CN110941631A (zh) * 2019-10-30 2020-03-31 联想(北京)有限公司 一种信息处理方法及电子设备
CN113010768A (zh) * 2019-12-19 2021-06-22 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN113010768B (zh) * 2019-12-19 2024-03-19 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN111708800A (zh) * 2020-05-27 2020-09-25 北京百度网讯科技有限公司 查询方法、装置及电子设备
CN113222492A (zh) * 2021-03-29 2021-08-06 北京中交兴路信息科技有限公司 一种车辆行驶线路类型的判别方法、装置、存储介质及终端
CN113222492B (zh) * 2021-03-29 2024-05-03 北京中交兴路信息科技有限公司 一种车辆行驶线路类型的判别方法、装置、存储介质及终端

Also Published As

Publication number Publication date
CN107203526B (zh) 2020-11-24

Similar Documents

Publication Publication Date Title
CN107203526A (zh) 一种查询串语义需求分析方法及装置
CN109145169B (zh) 一种基于统计分词的地址匹配方法
CN101313300B (zh) 本地搜索
CN110472066A (zh) 一种城市地理语义知识图谱的构建方法
CN106033416A (zh) 一种字符串处理方法及装置
JP5087377B2 (ja) 地理的情報を含む文書群の検索装置、検索方法、検索プログラムおよびそのプログラムを記録した記録媒体
JP2012532388A (ja) マップサーチのためのクエリパーシング
CN109359200A (zh) 地名地址数据智能解析系统
CN111931077B (zh) 数据处理方法、装置、电子设备及存储介质
CN110309432B (zh) 基于兴趣点的同义词确定方法、地图兴趣点处理方法
CN107168991A (zh) 一种搜索结果展示方法和装置
CN104679801A (zh) 一种兴趣点搜索方法和装置
CN108304411B (zh) 地理位置语句的语义识别方法和装置
CN107463711A (zh) 一种数据的标签匹配方法及装置
CN102646124A (zh) 一种自动识别地址信息的方法
CN105389338B (zh) 一种采购中标数据的解析方法
CN102479230A (zh) 提取地理特征词的方法和装置
CN116414823A (zh) 一种基于分词模型的地址定位方法和装置
Shi et al. Extraction of geospatial information on the Web for GIS applications
CN110245286A (zh) 一种基于数据挖掘的旅行推荐方法及装置
CN1830022B (zh) 语音应答系统及其方法
CN112861532B (zh) 地址标准化处理方法、装置、设备及在线搜索系统
JP2008090334A (ja) 所在地解析装置、所在地解析方法及びそのプログラム並びに記録媒体
CN107577667A (zh) 一种实体词处理方法和装置
KR101589626B1 (ko) 어휘의미패턴 분석방법에 기반하여 빅데이터로부터 점포창업용 데이터 또는 운영지원용 데이터를 생성하는 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200422

Address after: 310051 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Applicant after: Alibaba (China) Co.,Ltd.

Address before: Daheng Technology Building No. three Beijing 100080 Haidian District Suzhou Street 16 layer 2.

Applicant before: AUTONAVI INFORMATION TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant