CN108304411B - 地理位置语句的语义识别方法和装置 - Google Patents

地理位置语句的语义识别方法和装置 Download PDF

Info

Publication number
CN108304411B
CN108304411B CN201710024402.9A CN201710024402A CN108304411B CN 108304411 B CN108304411 B CN 108304411B CN 201710024402 A CN201710024402 A CN 201710024402A CN 108304411 B CN108304411 B CN 108304411B
Authority
CN
China
Prior art keywords
similarity
word
keyword
character
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710024402.9A
Other languages
English (en)
Other versions
CN108304411A (zh
Inventor
王世民
杨晓丹
任旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Liaoning Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Liaoning Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Liaoning Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201710024402.9A priority Critical patent/CN108304411B/zh
Publication of CN108304411A publication Critical patent/CN108304411A/zh
Application granted granted Critical
Publication of CN108304411B publication Critical patent/CN108304411B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Remote Sensing (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了地理位置语句的语义识别方法和装置。该方法包括:根据预设的多个地理描述信息词库中的切词模型对地理位置语句进行关键词切分;根据切分结果确定任一关键词所属的至少一个对应的地理描述信息词库,以根据至少一个对应的地理描述信息词库中的相似度模型确定关键词的词义;在确定全部关键词的词义后,根据全部关键词在地理位置语句中的索引位置,并根据索引位置对全部关键词进行压盖处理,并将压盖处理后的关键词作为目标关键词;根据全部目标关键词的索引位置和目标关键词的词义确定地理位置语句的语义,以根据语义确定匹配的地理位置信息。本发明实施例有助于解决现有技术中地理位置语句的语义识别准确率低的技术问题。

Description

地理位置语句的语义识别方法和装置
技术领域
本发明属于语义识别技术领域,尤其涉及地理位置语句的语义识别方法和装置。
背景技术
在移动互联网飞速发展的时代,用户在享受位置服务时,更倾向于使用地图APP(例如,百度地图、高德地图、和地图)去获取想要前往的兴趣点。由于用户的教育水平、从事工作等方面不同,搜索相同的地图兴趣点时,用户输入的地图输入词也大相径庭。
目前,地图厂商识别用户输入词对应的POI(Point of Interest,包括名称、类别、经纬度信息)时,首先将输入词按照关键字进行切词处理,然后组合切词结果,根据各切词结果并借助相似度计算的算法和搜索热度值,在POI数据库中找出与输入词最相近的POI。在切词过程中并不精准定位输入词所指内容或数据类型,只是利用关键字对输入词进行切词处理。因此,切词结果对输入词语义识别不起指导性作用。
发明内容
本发明实施例提供了一种地理位置语句的语义识别方法和装置,尤其有助于提高地图软件查找地理位置的准确性。
第一方面,本发明提供了一种地理位置语句的语义识别方法,包括:根据预设的多个地理描述信息词库中的切词模型对地理位置语句进行关键词切分;根据切分结果确定任一关键词所属的至少一个对应的地理描述信息词库,以根据至少一个对应的地理描述信息词库中的相似度模型确定关键词的词义;在确定全部关键词的词义后,根据全部关键词在地理位置语句中的索引位置,并根据索引位置对全部关键词进行压盖处理,并将压盖处理后的关键词作为目标关键词;根据全部目标关键词的索引位置和目标关键词的词义确定地理位置语句的语义,以根据语义确定匹配的地理位置信息。
第二方面,本发明提供了一种地理位置语句的语义识别装置,包括:切分单元,用于根据预设的多个地理描述信息词库中的切词模型对所述地理位置语句进行关键词切分;确定单元,用于根据切分结果确定任一所述关键词所属的至少一个对应的所述地理描述信息词库,以根据至少一个对应的所述地理描述信息词库中的相似度模型确定所述关键词的词义;压盖单元,用于在确定全部所述关键词的词义后,根据全部所述关键词在所述地理位置语句中的索引位置,并根据所述索引位置对全部所述关键词进行压盖处理,并将所述压盖处理后的关键词作为目标关键词;匹配单元,用于根据全部所述目标关键词的索引位置和所述目标关键词的词义确定所述地理位置语句的语义,以根据所述语义确定匹配的地理位置信息。
根据本发明的地理位置语句的语义识别方案,针对地图产品用户输入词(即地理位置语句),利用多类词库、相应的别名相似度计算模型与专属的压盖处理方案识别地理描述信息,再通过特殊类型关键字集识别重要出行目的地类型信息。通过此种切词识别方案,提高了对用户输入词语义的精准度,降低了后期与地图兴趣点母库数据匹配的难度,提高了地理位置查找的准确性和效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明一实施例提供的地理位置语句的语义识别方法的示意性流程图;
图2是根据本发明一实施例提供的地理位置语句的语义识别装置的示意性框图;
图3是根据本发明又一实施例提供的地理位置语句的语义识别方法的示意性流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图描述本发明的实施例。但是显然,所描述的实施例仅是本发明的一部分实现方式,而不是全部的可能实现方式。基于这些实施例,本领域普通技术人员容易获得其他实现方式,它们都应落入本发明保护的范围。在技术上不冲突的情况下,本申请中的各个实施例之间,以及实施例中的各个特征之间可以相互组合。
图1是根据本发明一实施例提供的地理位置语句的语义识别方法的示意性流程图。
如图1所示的语义识别方法包括:步骤102,根据预设的多个地理描述信息词库中的切词模型对地理位置语句进行关键词切分;步骤104,根据切分结果确定任一关键词所属的至少一个对应的地理描述信息词库,以根据至少一个对应的地理描述信息词库中的相似度模型确定关键词的词义;步骤106,在确定全部关键词的词义后,根据全部关键词在地理位置语句中的索引位置,并根据索引位置对全部关键词进行压盖处理,并将压盖处理后的关键词作为目标关键词;步骤108,根据全部目标关键词的索引位置和目标关键词的词义确定地理位置语句的语义,以根据语义确定匹配的地理位置信息。
例如,预设的地理描述信息词库可以包括以下8个类的词库,或其中的某些类:道路词库、省份词库、城市词库、行政区划词库、桥词库、乡镇词库、村词库、出入口词库。针对每个类的词库可以分别提供别名相似度计算公式集,同时各类词库也存在相似的问题情形。发明人注意到,用户使用地理描述信息的别名通常可归纳为五种情形:1)关键词不同;2)道路信息中包含方位词;3)道路信息为高速公路的问题;4)象形字问题;5)拼音问题。其中,情形2)、情形3)为道路词库别名相似度计算公式集所独有,而情形1)、4)、5)为各类词库别名相似度计算公式集所共有。
关键词指代表词库词核心含义的词,一般情况下位于结尾处。例如,对于道路词库而言,关键词可以为:街、路、巷、弄、道、国道、省道、县道、国路、省路、县路、大马路、马路、大街、大道等;对于桥词库而言,关键词可以为:大桥、立交桥、立交、互通、桥等。由于用户文化水平、从事行业、生活环境等不同,对关键词的描述也不同。传统的相似度计算方法比较字符间的区别,会由于用户对关键词的误输入导致切词结果的错误。例如,用户输入词为“桃仙立交桥”,而实际对应的词库词为“桃仙互通”;若通过传统的相似度计算方法,计算结果将不高于0.5,输入词将被错误识别。根据本发明的实施例,采用了编辑距离公式(下文的公式(1))与Jaccard公式变体(下文的公式(2))处理此类数据。此处引入实例集的概念,即将输入词分为两个部分,非关键词部分与关键词部分。
对于情形1),一种示例性的处理方式如下。
步骤1:根据各类词库的关键词集,识别输入词A中可能包含的疑似词库类信息,A1,A2…An,每条疑似词库类信息从首字符至首个关键词的结尾字符,或上一个关键词结尾处字符至本关键词结尾字符。若疑似词库类信息首字符为连接词(例如“与”、“或”、“和”),则从连接词后一个字符起设定疑似词库类信息。
步骤2:对于A1与词库词B的非关键词部分,使用公式(1)计算相似度值。
步骤3:在不包含其他别名情形情况下,sED=1时,进行步骤4。
步骤4:利用公式(2)计算,当sJacc_Ins=1时,A1与词库词B为同一条数据,建立A1与词库的关系,并记录A1的索引位置;当sJacc_Ins=0.5时,A1是词库词B的别名,建立A1与词库的关系,并记录A1的索引位置;当sJacc_Ins=0时,A1与词库词B无关。
步骤5:若步骤2中sED≠1时,则去掉A1中的首字符,生成A1′,执行步骤2至步骤4,若成功建立与词库的关系并记录索引位置,则操作结束。
步骤6:若步骤5中未在A1′与词库间建立关系并记录索引位置,则重复执行步骤5、步骤3、步骤4,直至A1 l的字符长度为1时截止。
步骤7:重复步骤2至步骤7,直至识别完全部疑似词库类信息。
其中,公式(1)、(2)的表达式分别为:
Figure BDA0001209118970000041
以及
Figure BDA0001209118970000042
其中,A代表关键词,B代表地理描述信息词库中的参考词,|A|表示关键词的字符长度,|B|表示参考词的字符长度,Edit(A,B)表示A变化为B所需的步骤数,SED表示关键词与参考词的相似度,I表示在A中插入字符变化为B所需的步骤数,S表示在A中替换字符变化为B所需的步骤数,D表示在A中删除字符变化为B所需的步骤数,|A∩B|表示关键词与参考词的交集的字符个数,|A∪B|表示关键词与参考词的并集的字符个数,AINS表示关键词A在地理描述信息词库的实例集中的字符串,BINS参考词B在在地理描述信息词库的实例集中的字符串,Sjacc_INS表示关键词的字符串与参考词在地理描述信息词库的实例集中的匹配度。
情形2)是道路词库独有的情形,道路信息中可能包含方位词,其中,方位词不位于首字符或关键词中。例如,输入词“兴工北街”中的“北”、输入词“北二中路”中的“中”即为方位词。在输入词为“兴工街”、对应的词库词为“兴工北街”的情况下,若通过传统的相似度计算方法,计算结果将不高于0.75,输入词与对应词库词的关系将无法清晰建立。根据本发明的实施例,采用了改进的Jaro-Winkler算法。对于情形2)的一种示例性处理步骤如下。
步骤1:读取方位词词库,并识别输入词A中是否包含方位词,若不包含则终止;若包含进入步骤2。
步骤2:根据道路关键词,识别输入词A中可能包含的疑似道路信息,A1,A2…An,每条疑似道路信息从首字符至首个道路关键词的结尾字符,或上一个道路关键词结尾处字符至本道路关键词结尾字符。若疑似道路信息首字符为连接词(例如“与”、“或”、“和”),则从连接词后一个字符起设定疑似道路信息。
步骤3:计算每个疑似道路An与词库词Bn的字符长度,并统计方位词的个数,作为步骤4的输入。
步骤4:按公式3,对A1与词库集B进行遍历循环计算,若在A1与Bm时,SJaro=1,则A1与词库词Bm为相同词,或A1为Bm的别名,建立A1与词库的关系,并记录A1的索引位置。
步骤5:若SJaro≠1,则去掉A1中的首字符,生成A1′,执行步骤3、步骤4,若成功建立与词库的关系并记录索引位置,则操作结束。
步骤6:若步骤5中未在A1′与词库间建立关系并记录索引位置,则重复执行步骤5、步骤3、步骤4,直至A1 l的字符长度为1时截止。
步骤7:重复步骤3至步骤7,直至判定完全部疑似道路信息。
其中,公式(3)的表达式为:
Figure BDA0001209118970000051
其中,t表示方位词的个数,其余符号的含义同上。
情形3)也是道路词库独有的情形,涉及道路信息为高速公路的问题。例如,输入词“G1113”、“G1113丹阜高速”、“G1”、“京哈高速”、“G1京哈高速”、“G1高速公路”均为高速公路类数据。在“G1113”为输入词、“G1113丹阜高速”为词库词时,按传统的相似度计算方法计算,结果将不高于0.56;当“G1”、“京哈高速”或“G1高速公路”为输入词、“G1京哈高速”为词库词时,按传统的相似度计算方法计算,结果将分别不高于0.34、0、0.34,无法对高速公路类输入词进行正确识别。
根据本发明的实施例,由于词库词均为标准的高速公路类信息,即由高速公路号(G1)与高速简称(京哈高速)组成,所以将道路词库中的每个高速公路类数据切分为两个实例集(高速公路号与高速简称)。对于输入词,将疑似高速公路信息,分为按疑似高速公路号、疑似高速简称两个实例集。疑似高速公路号只能由“G”与数字组成;疑似高速简称可以是包含“高速公路”、“高速”的字符串,且该实例集以“高速公路”、“高速”字符串结尾。基于以上内容,本发明的实施例利用编辑距离公式变体(公式(4))与Jaccard公式变体(公式(2))处理此类数据。一种情形3)的示例性处理步骤如下。
步骤1:识别输入词A中可能包含的疑似高速公路号实例集(A11,A12…A1n)与疑似高速简称实例集(A21,A22…A2n),以上两实例集在输入词中连续、配对出现(A11+A21或A21+A11)。同理,每条高速公路词库词将整理为相似的词库词,B11、B21,B12、B22…B1n、B1n。每个实例集从首字符至首标识的结尾字符,或上一个标识结尾处字符至本标识结尾字符。若疑似词库类信息首字符为连接词(例如“与”、“或”、“和”),则从连接词后一个字符起设定疑似词库类信息。每对实例集(Ajn、Akn)若不同时为空,则执行步骤2,否则判断下一对实例集。
步骤2:对于A11与B11使用公式4计算相似度值,若sED=1时,进行步骤3。
步骤3:对于A21与B21使用公式4计算相似度值,若sED=1时,认定A21与B21为同一条数据,若1>sED≥0.75时,认定A21为B21别名,亦为同一条数据,进行步骤4。
步骤4:将步骤2、步骤3的结果作为公式2的输入,计算两实例集对的相似度值,当sJacc_Ins=1时,A1与词库词B1为同一条数据,建立A1与词库的关系,并记录A1的索引位置;当sJacc_Ins=0.5时,A1是词库词B1的别名,建立A1与词库的关系,并记录A1的索引位置。
步骤5:在步骤4中,当sJacc_Ins=0时,词库集B进行遍历循环计算,若在A1与Bm时,sJacc_Ins≥0.5,则A1与词库词Bm为相同词,或A1为Bm的别名,建立A1与词库的关系,并记录A1的索引位置,直至在词库集B内循环结束。
步骤6:针对数据A2…An,重复步骤2至步骤5,直至识别完全部疑似高速公路信息。
其中,公式(4)的表达式为:
Figure BDA0001209118970000071
其中的各个符号所代表的含义已在上文中阐述,因此不再重复。
情形4)的问题适用于全部词库,待处理的问题为象形字问题。在此类情形下,除关键字外,输入词与词库词仅有一字不同,且此字在输入词、词库词的相对位置相同。传统的相似度计算方法无法确定象形词语之间的联系。例如,输入词为“廷河街”,而词库词为“延河街”,若通过传统的相似度计算方法,计算结果将不高于0.67,且由于首字符不同,输入词将无法与词库词建立关系并记录索引位置。根据本发明的实施例,利用编辑距离公式变体(公式(4))和编辑距离公式变体(公式(5))处理象形字问题。情形4)的一种示例性处理步骤如下。
步骤1:根据各类词库的关键词集,识别输入词A中可能包含的疑似词库类信息,A1,A2…An,每条疑似词库类信息从首字符至首个关键词的结尾字符,或上一个关键词结尾处字符至本关键词结尾字符。若疑似词库类信息首字符为连接词(例如“与”、“或”、“和”),则从连接词后一个字符起设定疑似词库类信息。
步骤2:利用公式4,对A1与词库集B中每个词进行一一比较,若存在A1、Bk,使sED=1,且|A1|=|Bk|,或sED≠1,则判定结束。
步骤3:若步骤2中(公式4),sED=1,且|A1|≠|Bk|,且Edit(A,B)=0,则认定A1是词库词Bk的疑似象形字别名,并记录A1中删除字符所在字符串的位置。
步骤4:按步骤3中记录的字符串位置,分别从A1、Bk中取出字符a、b,利用笔画识别程序,分别识别a、b的笔画数|a|、|b|,若||a|-|b||>3时,则判定结束。
步骤5:若步骤4中,||a|-|b||≤3时,则将a、b作为公式5的输入,计算a与b的笔画相似度值,即从a变化至b共需要的删除的笔画数与插入的笔画数的差异。若公式5中的0<Edit(a,b)≤6,且sed≥0.5,则认定a是b的象形字,建立A1与词库的关系,并记录A1的索引位置,否则判定结束。
步骤6:对A2…An执行步骤2至步骤5,直至判断结束。
其中,公式(5)的表达式如下。
Figure BDA0001209118970000081
公式(5)的表达式与公式(1)类似。其中,a表示疑似象形词的指定字符,b表示参考词的指定字符,Sed表示疑似象形词的指定字符与参考词的指定字符之间的相似度,Edit(a,b)表示a变化为b所需的步骤数,I'表示在a中插入字符变化为b所需的步骤数,S'表示在a中替换字符变化为b所需的步骤数,D'表示在a中删除字符变化为b所需的步骤数。
情形5)的问题适用于全部词库,待处理的问题为拼音问题。设输入词Aj与词库词Bk对应,此类情形包括两种类型:类型1,Aj中每个汉字均为拼音,例,Aj、Bk分别为“wanquanjie”、“万泉街”;类型2,Aj中词库关键字为汉字、其余为拼音,例如Aj、Bk分别为“wanquan街”、“万泉街”。若通过传统的相似度计算方法,计算结果将分别为0和0.125。根据本发明的实施例,采用拼音识别方法结合编辑距离公式(公式(1))来处理输入词中出现的拼音问题。其中,拼音识别方法的具体示例可以是:若输入词中存在字母,从后向前按单个字符查找,根据ASCII码判断是否为连续字母组合,最终得到结果字母列表。根据建立的拼音词典(词典基于上述各类词库建立),按照中文声母、韵母的规则,识别字母序列是否属于汉语拼音全拼。
情形5)的一种示例性处理步骤如下。
步骤1:使用拼音识别方法判断输入词中是否存在拼音,若不存在,判定结束。
步骤2:若输入词中存在拼音A,识别拼音结尾处是否为各类词库的关键词,若存在执行步骤9,若不存在执行步骤3。
步骤3:将各类词库的关键词,分别转换为拼音B。利用公式1,从A、B尾字母开始,从后向前进行相似度计算,若A中不存在字符完全等同于B,则判定结束,否则执行步骤4。
步骤4:确定A对应B的具体词库类型,并将该类词库词全部转化为拼音Cl(C1…Cn)。
步骤5:利用公式1,计算A与C1的相似度值,若sED=1,则A是C1的拼音,建立A与词库的关系,并记录A的索引位置。
步骤6:若步骤5中sED≠1,对A与C2…Cn,循环执行步骤5,直至判断结束。
步骤7:若步骤6中,A与任一Cl均无法建立对应关系,则去掉A的首字符,记为A1,执行步骤5、步骤6,若可建立与词库的对应关系,则认定A1为Cl的拼音别名,并记录A1的索引位置。
步骤8:若步骤7中,无法找到与词库的对应关系,则执行步骤7、步骤5、步骤6,直至A所剩字符数小于等于1,若最终仍无法建立对应关系,则判定A中不包含此类词库数据。
步骤9:若拼音A结尾处为词库关键词,则选定该类词库E,并将词库中数据的关键词删除,形成集合C。
步骤10:将A与C作为输入,执行步骤5至步骤8,若只存在一对数据,使得sED=1,则D(由拼音A及其结尾处的关键词组成)与词库词E存在一一对应关系,并记录相应的索引位置。
步骤11:步骤10中,若存在多对数据,使得sED=1,则比较D与E的关键词,若存在完全相同的情形,则针对此情形建立对应关系,并记录相应的索引位置。若不存在完全相同的情形,则将D与所有的E建立对应关系,并记录相应的索引位置。
以上详细介绍了五种别名的识别方案。在真实情况中,存在五种问题的交叉组合。针对省份词库、城市词库、行政区划词库、桥词库、乡镇词库、村词库、出入口词库判定过程中,如果在分别进行1)、4)、5)三种情形的判定后仍无法建立与词库的对应关系,则可以结合关键词判定方法与象形字问题判定方法共同计算判定;若仍无法与各类词库建立对应关系,则认定输入词中不包含以上七类数据。针对道路词库,可以先进行关键词判定,在分别进行1)-5)五种情形的判定后仍无法建立与词库的对应关系,则可以结合关键词判定方法、方位词问题判定方法、高速公路问题判定方法和象形字问题判定方法共同计算判定;若仍无法与各类词库建立对应关系,则可以认定输入词中不包含道路类数据。
本发明的实施例通过以上词库及相应的相似度计算公式集,可分析出输入词中包含的全部道路信息、省份信息、城市信息、行政区划信息、桥信息、乡镇信息、村信息、出入口信息。此外,基于以上道路信息切词的结果,还可以进一步获知交叉口信息与门牌地址信息。
本发明的实施例还提供了基于地图输入词的交叉口、门牌地址以及其他出入口判定的方案。
交叉口判定的一种示例可以包括:1)当输入词中包含两条或以上道路时,且道路间无文字压盖,则认定此部分数据为交叉口;2)在情形1)中,道路间用“与”、“和”、“或”连接时,则认定此部分数据为交叉口;3)在情形2)中,可识别的最后一条道路是以“交叉口”、“交叉”或其同音词结尾时,则认定此部分数据为交叉口。
门牌地址判定的一种示例可以包括:1)当输入词中包含道路信息,且道路信息结尾处为数字信息,同时此条输入词以数字结尾,则认定此部分数据为门牌地址;2)在情形1)中,数字信息结尾处为“号”或“甲”或“乙”,同时此条输入词以此内容结尾,则认定此部分数据为门牌地址;3)在情形1)中,数字信息结尾处为“甲”或“乙”,“甲”或“乙”结尾处为数字信息B,数字信息B结尾处为“号”,同时此条输入词以“号”结尾,则认定此部分数据为门牌地址;4)在情形1)中,数字信息结尾处为字母,同时此条输入词以字母结尾,则认定此部分数据为门牌地址;5)在情形4)中,字母结尾处为“号”,同时此条输入词以“号”结尾,则认定此部分数据为门牌地址。
对于出入口判定的示例,在词库处理环节已做过一轮判定,由于出入口数据自身的复杂性,可以对出入口进行二次识别,其相关原则可以包括:1)输入词中,道路信息结尾处为出入口信息关键字(出口/入口/出入口/高速收费站),则认定此部分数据为出入口;2)输入词中,省份信息结尾处为出入口信息关键字,则认定此部分数据为出入口;3)输入词中,城市信息结尾处为出入口信息关键字,则认定此部分数据为出入口;4)输入词中,行政区划信息结尾处为出入口信息关键字,则认定此部分数据为出入口;5)输入词中,乡镇信息结尾处为出入口信息关键字,则认定此部分数据为出入口;6)输入词中,村信息结尾处为出入口信息关键字,则认定此部分数据为出入口。
此外,本发明的实施例还针对输入词的使用场景提供了压盖处理方案。根据一种示例,压盖处理可以包括:1)记录所有识别结果的索引位置,并将已识别的词语从长到短排序;2)根据每一个词语的索引位置,结合输入词长度排序结果,从长到短逐个判断识别结果是否与其他词语存在重叠关系,如果长词完全覆盖了短词,删除短词识别结果;3)确定输入词最终构成,首先判断识别结果是否重复,一个词语是否被识别为多个类型,若一个词语即属于省份又属于城市时,则认为是省份信息,确认每个词语对应的类型后将词语按在原输入词中的位置拼接成输入词。
在对输入词中全部地理描述信息类数据的切词完成后,输入词中的剩余信息可认为是具体兴趣点的描述信息,例如,餐厅信息、停车场信息、机场信息等。为了进一步降低后期搜索引擎匹配的难度,可以提供特殊分类关键词集,用以识别用户关注度极高的兴趣点数据,包括:景点、飞机场、火车站、大学、医院。在一种实施例中,此顺序可以作为压盖优先级从高至低的顺序。
图2是根据本发明一实施例提供的地理位置语句的语义识别装置200的示意性框图。
图2所示的语义识别装置200包括:切分单元202,用于根据预设的多个地理描述信息词库中的切词模型对所述地理位置语句进行关键词切分;确定单元204,用于根据切分结果确定任一所述关键词所属的至少一个对应的所述地理描述信息词库,以根据至少一个对应的所述地理描述信息词库中的相似度模型确定所述关键词的词义;压盖单元206,用于在确定全部所述关键词的词义后,根据全部所述关键词在所述地理位置语句中的索引位置,并根据所述索引位置对全部所述关键词进行压盖处理,并将所述压盖处理后的关键词作为目标关键词;匹配单元208,用于根据全部所述目标关键词的索引位置和所述目标关键词的词义确定所述地理位置语句的语义,以根据所述语义确定匹配的地理位置信息。
语义识别装置200可以执行与图1所示的语义识别方法相对应的操作。
在一种实施例中,地理位置语句的语义识别装置200还可以包括:预设单元210,用于预设所述相似度模型包括第一相似度模型、第二相似度模型、第三相似度模型、第四相似度模型和第五相似度模型,
其中,所述第一相似度模型的表达式为:
Figure BDA0001209118970000111
所述第二相似度模型的表达式为:
Figure BDA0001209118970000121
所述第三相似度模型的表达式为:
Figure BDA0001209118970000122
所述第四相似度模型的表达式为:
Figure BDA0001209118970000123
所述第五相似度模型的表达式为:
Figure BDA0001209118970000124
其中,所述A表示所述关键词,所述B表示所述地理描述信息词库中的参考词,所述|A|表示所述关键词的字符长度,所述|B|表示所述参考词的字符长度,所述Edit(A,B)表示所述A变化为所述B所需的步骤数,所述SED表示所述关键词与所述参考词的相似度,所述I表示在所述A中插入字符变化为所述B所需的步骤数,所述S表示在所述A中替换字符变化为所述B所需的步骤数,所述D表示在所述A中删除字符变化为所述B所需的步骤数,所述t表示方位词的个数,所述|A∩B|表示所述关键词与所述参考词的交集的字符个数,所述|A∪B|表示所述关键词与所述参考词的并集的字符个数,所述AINS表示所述关键词A在所述地理描述信息词库的实例集中的字符串,所述BINS所述参考词B在在所述地理描述信息词库的实例集中的字符串,所述Sjacc_INS表示所述关键词的字符串与所述参考词在所述地理描述信息词库的实例集中的匹配度,所述a表示疑似象形词的指定字符,所述b表示所述参考词的指定字符,Sed表示所述疑似象形词的指定字符与所述参考词的指定字符之间的相似度,所述Edit(a,b)表示所述a变化为所述b所需的步骤数,所述I'表示在所述a中插入字符变化为所述b所需的步骤数,所述S'表示在所述a中替换字符变化为所述b所需的步骤数,所述D'表示在所述a中删除字符变化为所述b所需的步骤数。
在一种实施例中,确定单元204还可以用于:根据所述第一相似度模型计算所述关键词的字符串与所述参考词的非关键字符之间的相似度;在根据所述第一相似度模型计算所述关键词的字符串与所述参考词的非关键字符之间的相似度为1时,根据所述第二相似度模型计算所述关键词的字符串与所述参考词的在所述地理描述信息词库的实例集中的匹配度;在根据所述第一相似度模型计算所述关键词的字符串与所述参考词的非关键字符之间的相似度不为1时,删除所述关键词中的首字符,以更新所述关键词的字符串至所述相似度为1为止,其中,在计算所述匹配度为1时,确定所述关键词与所述参考词为相同词汇,在计算所述匹配度为0.5时,确定所述关键词与所述参考词为相似词汇,在计算所述相似度为0时,确定所述关键词与所述参考词为不相关词汇。
在一种实施例中,确定单元204还可以用于:根据所述第四相似度模型计算所述关键词的字符串与所述任一参考词之间的相似度,并记作第一相似度;在计算所述第一相似度为1,且所述关键词与所述参考词的字符长度相等,则确定所述关键词与所述参考词为相同词汇;在计算所述第一相似度为1,且所述关键词与所述参考词的字符长度不相等,且所述Edit(A,B)=0,则确定所述关键词为所述参考词的疑似象形词,同时确定将所述疑似象形词变化为所述参考词时删除的指定字符,以及所述参考词中与所述指定字符的索引位置对应的特定字符;比较所述疑似象形词的指定字符与所述参考词的特定字符之间的笔画数的差值;在计算所述笔画数的差值大于3时,确定所述疑似象形词与所述参考词不是象形词;在计算所述笔画数的差值小于或等于3时,根据所述第五相似度模型计算所述疑似象形词的指定字符与所述参考词的指定字符之间的相似度;在计算所述疑似象形词的指定字符与所述参考词的指定字符之间的相似度大于或等于0.5且所述Edit(a,b)满足0<Edit(a,b)≤6时,确定所述关键词为所述参考词的象形词。
在一种实施例中,确定单元204还可以用于:在检测到所述关键词为拼音字符串时,将所述参考词转换为拼音形式并记作参考拼音字符串,将所述拼音字符串作为所述关键字,所述参考拼音字符串作为所述参考词,并根据所述第一相似度模型按照索引位置从后向前计算所述参考拼音字符串与所述拼音字符串的相似度;若根据第一相似度模型计算所述参考拼音字符串与所述拼音字符串的相似度为1,则确定所述关键词与所述参考词为相同词汇;若根据第一相似度模型计算所述参考拼音字符串与所述拼音字符串的相似度不为1,则删除拼音字符串的首字符以更新所述关键词的字符串至所述相似度为1为止;若根据所述第一相似度模式循环删除所述拼音字符串的首字符至所述拼音字符串的字符个数小于或等于1时,则确定所述关键词与所述参考词不相关。
在一种实施例中,确定单元204还可以用于:若所述关键词中包括方位词,确定所述关键词对应的词库为所述地理描述信息词库中的方位词词库;根据所述第五相似度模型计算所述关键词与所述方位词词库中的参考词之间的相似度;在根据所述第五相似度模型计算所述关键词与所述方位词词库中的参考词之间的相似度为1时,确定所述关键词与所述参考词为相同词汇;在根据所述第五相似度模型计算所述关键词与所述方位词词库中的参考词之间的相似度不为1时,删除所述关键词的首字符以更新所述关键字,至所述相似度为1为止;若根据所述第五相似度模式循环删除所述关键词的首字符至所述关键词的字符个数小于或等于1时,则确定所述关键词与所述参考词不相关。
在一种实施例中,确定单元204还可以用于:若所述关键词中包括道路标识,将所述关键词划分为公路号字符串和公路简称字符串;根据所述第三相似度模型计算所述公路号字符串与对应的所述地理描述信息词库中的第一实例集中的公路号参考词之间的相似度,记作第一实例集相似度;在所述第一实例集相似度为1时,确定所述公路号字符串与所述公路号参考词为相同词汇,并且根据所述第三相似度模型计算所述公路简称字符串与对应的所述地理描述信息词库中的第二实例集中的公路简称参考词之间的相似度,记作第二实例集相似度;在所述第二实例集相似度满足1>SED≥0.75时,确定所述公路简称字符串与所述公路简称参考词为相同词汇;将所述第一实例集相似度和所述第二实例集相似度带入所述第二相似度模型计算相似度,记作第一道路信息相似度;在所述第一道路信息相似度大于或等于0.5时,确定所述公路号字符串与所述公路号参考词为相同词汇或相似词汇,以及所述公路简称字符串与所述公路简称参考词为相同词汇或相似词汇。
在一种实施例中,确定单元204还可以用于:在检测到两个所述目标关键词之间的连接词为预设的连接参考词,且分别对应于所述地理描述信息词库中的两个道路参考词时,确定匹配的地理位置为所述两个道路参考词对应的道路的交叉口位置。
在一种实施例中,确定单元204还可以用于:在检测到所述目标关键词为预设的门牌号参考词或预设的数字序号参考词时,确定匹配的地理位置为对应的门牌号地址。
图3是根据本发明又一实施例提供的地理位置语句的语义识别方法的示意性流程图。
图3所示的语义识别方法包括:步骤302,获取地图产品输入词;步骤304,按照词库文件中的切词模型进行关键词切分;步骤308,在省市区词库相似度模型306A、道路词库相似度模型306B、桥词库相似度模型306C、乡镇词库相似度模型306D、村词库相似度模型306E和出入口词库相似度模型306F的数据基础上,根据词库相似度模型确定与输入词相同或相似的参考词;步骤310,根据索引位置对目标关键词进行压盖处理;步骤312,地理信息切词和匹配,根据步骤302至步骤310,确定地理位置语句对应的特殊分类POI数据314I(如景点、飞机场、火车站、大学、医院)、省市区地理位置信息312A、道路地理位置信息312B、桥地理位置信息312C、乡镇地理位置信息312D、村地理位置信息312E、出入口地理位置信息312F和交叉口地理位置信息314H。
在现有切词技术方案中,根据关键字进行切词处理,并对切词结果的语义组合,覆盖全体语义分析情形,无针对性,在输入词语义的完整解析方面极易出现偏差。而根据本发明的实施例,在分析地图用户输入词后,得出输入词特有的元素种类,并针对各类元素提出对应的词库。切词技术方案利用词库进行识别。同时,还分析用户行为习惯,针对每一类词库分别建立别名相似度计算公式集(由多种改进的相似度计算公式组成),并根据词库特征动态生成相应别名,可实现对输入词内容语义的完整识别与判定。
根据本发明的实施例的地理位置语句的语义识别方案能够实现以下技术效果中的一些或全部。
(1)在切词初始阶段,利用8类地理描述信息词库对输入词的地理描述信息进行切词。与利用关键词对输入词整体进行切词的传统技术方案相比,能更精准的识别输入词中地理描述信息涉及的各类数据。
(2)利用多个相似度模型,针对不同的情形实时生成词库别名,再精准识别输入词中的各类地理描述信息。在用户输入词出现俗名问题、关键词错误、象形字问题、拼音问题等情形时,亦可对输入词进行精准切词。同时,由于输入词的别名是动态生成的,无需将其存入词库中,切词效率也得到极大的提升。
(3)传统的字符切词方案会将多种切词结果同时反馈给搜索引擎,由搜索引擎进行综合匹配与处理。本发明的实施例根据地图输入词的特点,提出一种最佳的压盖处理方案,仅为搜索引擎提供一种切词结果。因此,能够对输入词的语义进行比传统方案更精准的识别,降低后期引擎匹配的难度。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (16)

1.一种地理位置语句的语义识别方法,其特征在于,包括:
根据预设的多个地理描述信息词库中的切词模型对所述地理位置语句进行关键词切分;
根据切分结果确定任一所述关键词所属的至少一个对应的所述地理描述信息词库,以根据至少一个对应的所述地理描述信息词库中的相似度模型确定所述关键词的词义,所述相似度模型为多个;
在确定全部所述关键词的词义后,根据全部所述关键词在所述地理位置语句中的索引位置,并根据所述索引位置对全部所述关键词进行压盖处理,并将所述压盖处理后的关键词作为目标关键词;
根据全部所述目标关键词的索引位置和所述目标关键词的词义确定所述地理位置语句的语义,以根据所述语义确定匹配的地理位置信息;
所述根据预设的多个地理描述信息词库中的切词模型对所述地理位置语句进行关键词切分,还包括:
预设所述相似度模型包括第一相似度模型、第二相似度模型、第三相似度模型、第四相似度模型和第五相似度模型,
其中,所述第一相似度模型的表达式为:
Figure FDA0002461363890000011
所述第二相似度模型的表达式为:
Figure FDA0002461363890000012
所述第三相似度模型的表达式为:
Figure FDA0002461363890000013
所述第四相似度模型的表达式为:
Figure FDA0002461363890000014
所述第五相似度模型的表达式为:
Figure FDA0002461363890000021
其中,A表示所述关键词,B表示所述地理描述信息词库中的参考词,|A|表示所述关键词的字符长度,|B|表示所述参考词的字符长度,Edit(A,B)表示A变化为B所需的步骤数,SED表示所述关键词与所述参考词的相似度,I表示在A中插入字符变化为B所需的步骤数,S表示在A中替换字符变化为B所需的步骤数,D表示在A中删除字符变化为B所需的步骤数,t表示方位词的个数,|A∩B|表示所述关键词与所述参考词的交集的字符个数,|A∪B|表示所述关键词与所述参考词的并集的字符个数,AINS表示关键词A在所述地理描述信息词库的实例集中的字符串,BINS表示参考词B在在所述地理描述信息词库的实例集中的字符串,Sjacc_INS表示所述关键词的字符串与所述参考词在所述地理描述信息词库的实例集中的匹配度,a表示疑似象形词的指定字符,b表示所述参考词的指定字符,Sed表示所述疑似象形词的指定字符与所述参考词的指定字符之间的相似度,Edit(a,b)表示a变化为b所需的步骤数,I'表示在a中插入字符变化为b所需的步骤数,S'表示在a中替换字符变化为b所需的步骤数,D'表示在a中删除字符变化为b所需的步骤数。
2.根据权利要求1所述的方法,其特征在于,所述根据切分结果确定任一所述关键词所属的至少一个对应的所述地理描述信息词库,以根据至少一个对应的所述地理描述信息词库中的相似度模型确定所述关键词的词义的步骤包括:
根据所述第一相似度模型计算所述关键词的字符串与所述参考词的非关键字符之间的相似度;
在根据所述第一相似度模型计算所述关键词的字符串与所述参考词的非关键字符之间的相似度为1时,根据所述第二相似度模型计算所述关键词的字符串与所述参考词的在所述地理描述信息词库的实例集中的匹配度;
在根据所述第一相似度模型计算所述关键词的字符串与所述参考词的非关键字符之间的相似度不为1时,删除所述关键词中的首字符,以更新所述关键词的字符串至所述相似度为1为止,
其中,在计算所述匹配度为1时,确定所述关键词与所述参考词为相同词汇,在计算所述匹配度为0.5时,确定所述关键词与所述参考词为相似词汇,在计算所述相似度为0时,确定所述关键词与所述参考词为不相关词汇。
3.根据权利要求1所述的方法,其特征在于,所述根据切分结果确定任一所述关键词所属的至少一个对应的所述地理描述信息词库,以根据至少一个对应的所述地理描述信息词库中的相似度模型确定所述关键词的词义的步骤包括:
根据所述第四相似度模型计算所述关键词的字符串与所述任一参考词之间的相似度,并记作第一相似度;
在计算所述第一相似度为1,且所述关键词与所述参考词的字符长度相等,则确定所述关键词与所述参考词为相同词汇;
在计算所述第一相似度为1,且所述关键词与所述参考词的字符长度不相等,且所述Edit(A,B)=0,则确定所述关键词为所述参考词的疑似象形词,同时确定将所述疑似象形词变化为所述参考词时删除的指定字符,以及所述参考词中与所述指定字符的索引位置对应的特定字符;
比较所述疑似象形词的指定字符与所述参考词的特定字符之间的笔画数的差值;
在计算所述笔画数的差值大于3时,确定所述疑似象形词与所述参考词不是象形词;
在计算所述笔画数的差值小于或等于3时,根据所述第五相似度模型计算所述疑似象形词的指定字符与所述参考词的指定字符之间的相似度;
在计算所述疑似象形词的指定字符与所述参考词的指定字符之间的相似度大于或等于0.5且所述Edit(a,b)满足0<Edit(a,b)≤6时,确定所述关键词为所述参考词的象形词。
4.根据权利要求1所述的方法,其特征在于,所述根据切分结果确定任一所述关键词所属的至少一个对应的所述地理描述信息词库,以根据至少一个对应的所述地理描述信息词库中的相似度模型确定所述关键词的词义的步骤包括:
在检测到所述关键词为拼音字符串时,将所述参考词转换为拼音形式并记作参考拼音字符串,将所述拼音字符串作为所述关键字,所述参考拼音字符串作为所述参考词,并根据所述第一相似度模型按照索引位置从后向前计算所述参考拼音字符串与所述拼音字符串的相似度;
若根据第一相似度模型计算所述参考拼音字符串与所述拼音字符串的相似度为1,则确定所述关键词与所述参考词为相同词汇;
若根据第一相似度模型计算所述参考拼音字符串与所述拼音字符串的相似度不为1,则删除拼音字符串的首字符以更新所述关键词的字符串至所述相似度为1为止;
若根据所述第一相似度模式循环删除所述拼音字符串的首字符至所述拼音字符串的字符个数小于或等于1时,则确定所述关键词与所述参考词不相关。
5.根据权利要求1所述的方法,其特征在于,所述根据切分结果确定任一所述关键词所属的至少一个对应的所述地理描述信息词库,以根据至少一个对应的所述地理描述信息词库中的相似度模型确定所述关键词的词义的步骤包括:
若所述关键词中包括方位词,确定所述关键词对应的词库为所述地理描述信息词库中的方位词词库;
根据所述第五相似度模型计算所述关键词与所述方位词词库中的参考词之间的相似度;
在根据所述第五相似度模型计算所述关键词与所述方位词词库中的参考词之间的相似度为1时,确定所述关键词与所述参考词为相同词汇;
在根据所述第五相似度模型计算所述关键词与所述方位词词库中的参考词之间的相似度不为1时,删除所述关键词的首字符以更新所述关键字,至所述相似度为1为止;
若根据所述第五相似度模式循环删除所述关键词的首字符至所述关键词的字符个数小于或等于1时,则确定所述关键词与所述参考词不相关。
6.根据权利要求1所述的方法,其特征在于,所述根据切分结果确定任一所述关键词所属的至少一个对应的所述地理描述信息词库,以根据至少一个对应的所述地理描述信息词库中的相似度模型确定所述关键词的词义的步骤包括:
若所述关键词中包括道路标识,将所述关键词划分为公路号字符串和公路简称字符串;
根据所述第三相似度模型计算所述公路号字符串与对应的所述地理描述信息词库中的第一实例集中的公路号参考词之间的相似度,记作第一实例集相似度;
在所述第一实例集相似度为1时,确定所述公路号字符串与所述公路号参考词为相同词汇,并且根据所述第三相似度模型计算所述公路简称字符串与对应的所述地理描述信息词库中的第二实例集中的公路简称参考词之间的相似度,记作第二实例集相似度;
在所述第二实例集相似度满足1>SED≥0.75时,确定所述公路简称字符串与所述公路简称参考词为相同词汇;
将所述第一实例集相似度和所述第二实例集相似度带入所述第二相似度模型计算相似度,记作第一道路信息相似度;
在所述第一道路信息相似度大于或等于0.5时,确定所述公路号字符串与所述公路号参考词为相同词汇或相似词汇,以及所述公路简称字符串与所述公路简称参考词为相同词汇或相似词汇。
7.根据权利要求1至6中任一项所述的方法,其特征在于,还包括:
在检测到两个所述目标关键词之间的连接词为预设的连接参考词,且分别对应于所述地理描述信息词库中的两个道路参考词时,确定匹配的地理位置为所述两个道路参考词对应的道路的交叉口位置。
8.根据权利要求1至6中任一项所述的方法,其特征在于,还包括:
在检测到所述目标关键词为预设的门牌号参考词或预设的数字序号参考词时,确定匹配的地理位置为对应的门牌号地址。
9.一种地理位置语句的语义识别装置,其特征在于,包括:
切分单元,用于根据预设的多个地理描述信息词库中的切词模型对所述地理位置语句进行关键词切分;
确定单元,用于根据切分结果确定任一所述关键词所属的至少一个对应的所述地理描述信息词库,以根据至少一个对应的所述地理描述信息词库中的相似度模型确定所述关键词的词义,所述相似度模型为多个;
压盖单元,用于在确定全部所述关键词的词义后,根据全部所述关键词在所述地理位置语句中的索引位置,并根据所述索引位置对全部所述关键词进行压盖处理,并将所述压盖处理后的关键词作为目标关键词;
匹配单元,用于根据全部所述目标关键词的索引位置和所述目标关键词的词义确定所述地理位置语句的语义,以根据所述语义确定匹配的地理位置信息;
预设单元,用于预设所述相似度模型包括第一相似度模型、第二相似度模型、第三相似度模型、第四相似度模型和第五相似度模型,
其中,所述第一相似度模型的表达式为:
Figure FDA0002461363890000061
所述第二相似度模型的表达式为:
Figure FDA0002461363890000062
所述第三相似度模型的表达式为:
Figure FDA0002461363890000063
所述第四相似度模型的表达式为:
Figure FDA0002461363890000064
所述第五相似度模型的表达式为:
Figure FDA0002461363890000065
其中,A表示所述关键词,B表示所述地理描述信息词库中的参考词,|A|表示所述关键词的字符长度,|B|表示所述参考词的字符长度,Edit(A,B)表示A变化为B所需的步骤数,SED表示所述关键词与所述参考词的相似度,I表示在A中插入字符变化为B所需的步骤数,S表示在A中替换字符变化为B所需的步骤数,D表示在A中删除字符变化为B所需的步骤数,t表示方位词的个数,|A∩B|表示所述关键词与所述参考词的交集的字符个数,|A∪B|表示所述关键词与所述参考词的并集的字符个数,AINS表示关键词A在所述地理描述信息词库的实例集中的字符串,BINS表示参考词B在在所述地理描述信息词库的实例集中的字符串,Sjacc_INS表示所述关键词的字符串与所述参考词在所述地理描述信息词库的实例集中的匹配度,a表示疑似象形词的指定字符,b表示所述参考词的指定字符,Sed表示所述疑似象形词的指定字符与所述参考词的指定字符之间的相似度,Edit(a,b)表示a变化为b所需的步骤数,I'表示在a中插入字符变化为b所需的步骤数,S'表示在a中替换字符变化为b所需的步骤数,D'表示在a中删除字符变化为b所需的步骤数。
10.根据权利要求9所述的装置,其特征在于,
所述确定单元还用于:根据所述第一相似度模型计算所述关键词的字符串与所述参考词的非关键字符之间的相似度;
所述确定单元还用于:在根据所述第一相似度模型计算所述关键词的字符串与所述参考词的非关键字符之间的相似度为1时,根据所述第二相似度模型计算所述关键词的字符串与所述参考词的在所述地理描述信息词库的实例集中的匹配度;
所述确定单元还用于:在根据所述第一相似度模型计算所述关键词的字符串与所述参考词的非关键字符之间的相似度不为1时,删除所述关键词中的首字符,以更新所述关键词的字符串至所述相似度为1为止,
其中,在计算所述匹配度为1时,确定所述关键词与所述参考词为相同词汇,在计算所述匹配度为0.5时,确定所述关键词与所述参考词为相似词汇,在计算所述相似度为0时,确定所述关键词与所述参考词为不相关词汇。
11.根据权利要求9所述的装置,其特征在于,
所述确定单元还用于:根据所述第四相似度模型计算所述关键词的字符串与所述任一参考词之间的相似度,并记作第一相似度;
所述确定单元还用于:在计算所述第一相似度为1,且所述关键词与所述参考词的字符长度相等,则确定所述关键词与所述参考词为相同词汇;
所述确定单元还用于:在计算所述第一相似度为1,且所述关键词与所述参考词的字符长度不相等,且所述Edit(A,B)=0,则确定所述关键词为所述参考词的疑似象形词,同时确定将所述疑似象形词变化为所述参考词时删除的指定字符,以及所述参考词中与所述指定字符的索引位置对应的特定字符;
所述确定单元还用于:比较所述疑似象形词的指定字符与所述参考词的特定字符之间的笔画数的差值;
所述确定单元还用于:在计算所述笔画数的差值大于3时,确定所述疑似象形词与所述参考词不是象形词;
所述确定单元还用于:在计算所述笔画数的差值小于或等于3时,根据所述第五相似度模型计算所述疑似象形词的指定字符与所述参考词的指定字符之间的相似度;
所述确定单元还用于:在计算所述疑似象形词的指定字符与所述参考词的指定字符之间的相似度大于或等于0.5且所述Edit(a,b)满足0<Edit(a,b)≤6时,确定所述关键词为所述参考词的象形词。
12.根据权利要求9所述的装置,其特征在于,
所述确定单元还用于:在检测到所述关键词为拼音字符串时,将所述参考词转换为拼音形式并记作参考拼音字符串,将所述拼音字符串作为所述关键字,所述参考拼音字符串作为所述参考词,并根据所述第一相似度模型按照索引位置从后向前计算所述参考拼音字符串与所述拼音字符串的相似度;
所述确定单元还用于:若根据第一相似度模型计算所述参考拼音字符串与所述拼音字符串的相似度为1,则确定所述关键词与所述参考词为相同词汇;
所述确定单元还用于:若根据第一相似度模型计算所述参考拼音字符串与所述拼音字符串的相似度不为1,则删除拼音字符串的首字符以更新所述关键词的字符串至所述相似度为1为止;
所述确定单元还用于:若根据所述第一相似度模式循环删除所述拼音字符串的首字符至所述拼音字符串的字符个数小于或等于1时,则确定所述关键词与所述参考词不相关。
13.根据权利要求9所述的装置,其特征在于,
所述确定单元还用于:若所述关键词中包括方位词,确定所述关键词对应的词库为所述地理描述信息词库中的方位词词库;
所述确定单元还用于:根据所述第五相似度模型计算所述关键词与所述方位词词库中的参考词之间的相似度;
所述确定单元还用于:在根据所述第五相似度模型计算所述关键词与所述方位词词库中的参考词之间的相似度为1时,确定所述关键词与所述参考词为相同词汇;
所述确定单元还用于:在根据所述第五相似度模型计算所述关键词与所述方位词词库中的参考词之间的相似度不为1时,删除所述关键词的首字符以更新所述关键字,至所述相似度为1为止;
所述确定单元还用于:若根据所述第五相似度模式循环删除所述关键词的首字符至所述关键词的字符个数小于或等于1时,则确定所述关键词与所述参考词不相关。
14.根据权利要求9所述的装置,其特征在于,
所述确定单元还用于:若所述关键词中包括道路标识,将所述关键词划分为公路号字符串和公路简称字符串;
所述确定单元还用于:根据所述第三相似度模型计算所述公路号字符串与对应的所述地理描述信息词库中的第一实例集中的公路号参考词之间的相似度,记作第一实例集相似度;
所述确定单元还用于:在所述第一实例集相似度为1时,确定所述公路号字符串与所述公路号参考词为相同词汇,并且根据所述第三相似度模型计算所述公路简称字符串与对应的所述地理描述信息词库中的第二实例集中的公路简称参考词之间的相似度,记作第二实例集相似度;
所述确定单元还用于:在所述第二实例集相似度满足1>SED≥0.75时,确定所述公路简称字符串与所述公路简称参考词为相同词汇;
所述确定单元还用于:将所述第一实例集相似度和所述第二实例集相似度带入所述第二相似度模型计算相似度,记作第一道路信息相似度;
所述确定单元还用于:在所述第一道路信息相似度大于或等于0.5时,确定所述公路号字符串与所述公路号参考词为相同词汇或相似词汇,以及所述公路简称字符串与所述公路简称参考词为相同词汇或相似词汇。
15.根据权利要求9至14中任一项所述的装置,其特征在于,
所述确定单元还用于:在检测到两个所述目标关键词之间的连接词为预设的连接参考词,且分别对应于所述地理描述信息词库中的两个道路参考词时,确定匹配的地理位置为所述两个道路参考词对应的道路的交叉口位置。
16.根据权利要求9至14中任一项所述的装置,其特征在于,
所述确定单元还用于:在检测到所述目标关键词为预设的门牌号参考词或预设的数字序号参考词时,确定匹配的地理位置为对应的门牌号地址。
CN201710024402.9A 2017-01-13 2017-01-13 地理位置语句的语义识别方法和装置 Active CN108304411B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710024402.9A CN108304411B (zh) 2017-01-13 2017-01-13 地理位置语句的语义识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710024402.9A CN108304411B (zh) 2017-01-13 2017-01-13 地理位置语句的语义识别方法和装置

Publications (2)

Publication Number Publication Date
CN108304411A CN108304411A (zh) 2018-07-20
CN108304411B true CN108304411B (zh) 2020-08-18

Family

ID=62872417

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710024402.9A Active CN108304411B (zh) 2017-01-13 2017-01-13 地理位置语句的语义识别方法和装置

Country Status (1)

Country Link
CN (1) CN108304411B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460325B (zh) * 2019-01-22 2023-06-27 阿里巴巴集团控股有限公司 Poi搜索方法、装置与设备
CN111160016B (zh) * 2019-04-15 2022-05-03 深圳碳云智能数字生命健康管理有限公司 语义识别方法、装置、计算机可读存储介质和计算机设备
CN110705274B (zh) * 2019-09-06 2023-03-24 电子科技大学 基于实时学习的融合型词义嵌入方法
CN113128216B (zh) * 2019-12-31 2023-04-28 中国移动通信集团贵州有限公司 一种语言识别方法、系统及装置
US20220207235A1 (en) * 2020-12-30 2022-06-30 Baidu Usa Llc Method, apparatus and storage medium for determining destination on map

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102063469B (zh) * 2010-12-03 2013-04-24 百度在线网络技术(北京)有限公司 一种用于获取相关关键词信息的方法、装置和计算机设备
CN102955771A (zh) * 2011-08-18 2013-03-06 华东师范大学 中文单字串模式和词缀模式的新词自动识别技术及系统
FR3017474A1 (fr) * 2014-02-10 2015-08-14 Commissariat Energie Atomique Saisie assistee de regles dans une base de connaissance
CN105138511B (zh) * 2015-08-10 2017-12-12 北京思特奇信息技术股份有限公司 一种对搜索关键词进行语义分析的方法和系统
CN105550369B (zh) * 2016-01-26 2019-06-07 上海晶赞科技发展有限公司 一种搜索目标商品集的方法及装置

Also Published As

Publication number Publication date
CN108304411A (zh) 2018-07-20

Similar Documents

Publication Publication Date Title
CN108304411B (zh) 地理位置语句的语义识别方法和装置
CN107203526B (zh) 一种查询串语义需求分析方法及装置
CN107229659B (zh) 一种信息搜索方法及装置
CN106909611B (zh) 一种基于文本信息抽取的酒店自动匹配方法
US8429204B2 (en) Short point-of-interest title generation
CN110992944B (zh) 语音导航的纠错方法、语音导航装置、车辆和存储介质
CN111292751B (zh) 语义解析方法及装置、语音交互方法及装置、电子设备
CN101840406A (zh) 地名搜索装置和系统
CN112749265B (zh) 一种基于多信息源的智能问答系统
CN110019617B (zh) 地址标识的确定方法和装置、存储介质、电子装置
KR102207368B1 (ko) 학원 추천 방법 및 이러한 방법을 수행하는 장치
CN103383264A (zh) 具有语音识别的路线引导装置和方法
Mokhtari et al. Tagging address queries in maps search
KR102206781B1 (ko) 지식 기반 추론 및 신뢰도 분석을 이용한 가짜뉴스 판별 방법, 이를 수행하기 위한 기록매체 및 장치
CN111104503A (zh) 一种建筑工程质量验收规范问答系统及其构建方法
CN114091454A (zh) 一种互联网文本中地名信息提取及空间定位方法
CN116955541B (zh) 融合地理要素语义分割与相似度的地址匹配方法和系统
CN111831929A (zh) 一种获取poi信息的方法及装置
US20070162284A1 (en) Speech-conversion processing apparatus and method
KR101079653B1 (ko) 네비게이션 기기에서 음성인식 대상 키워드의 생성장치 및 방법
CN114792091A (zh) 基于词汇增强的中文地址要素解析方法、设备及存储介质
TW202146850A (zh) 確定路名之處理裝置及方法
CN110914841A (zh) 用于从用户生成内容确定行程目的地的方法和设备
CN114036285A (zh) Poi分类方法、电子设备及计算机存储介质
CN115495676A (zh) 基于深度学习的兴趣点融合方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant