CN110209755B - Poi导航地址的扩展方法及系统 - Google Patents
Poi导航地址的扩展方法及系统 Download PDFInfo
- Publication number
- CN110209755B CN110209755B CN201910509999.5A CN201910509999A CN110209755B CN 110209755 B CN110209755 B CN 110209755B CN 201910509999 A CN201910509999 A CN 201910509999A CN 110209755 B CN110209755 B CN 110209755B
- Authority
- CN
- China
- Prior art keywords
- dictionary
- organization
- navigation address
- words
- vocabulary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Remote Sensing (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供一种POI导航地址的扩展方法。该方法包括:对现有的POI导航地址数据集中的各规范导航地址名称按照末尾词汇进行组织性质分类;按照各组织性质类别的不同,对各组织性质类别下的规范导航地址名称进行分词,将分词后的各词汇划分成从属于各组织性质类别下的多个词典,其中,每一个组织性质类别下的多个词典至少包括:行政区域词典、组织性质词典;对现有的POI导航地址数据集中的每一个规范导航地址的名称进行扩展处理;基于新的导航地址名称,扩展POI导航地址数据集。本发明实施例还提供一种POI导航地址的扩展系统。本发明实施例避免了规则冲突导致的识别结果混乱,同时提高地名POI识别效率,扩展出新的导航地址名称提高了匹配的泛化性。
Description
技术领域
本发明涉及语义识别领域,尤其涉及一种POI导航地址的扩展方法及系统。
背景技术
在任务型语音交互系统中,垂直领域的特定知识起到了至关重要的作用,而领域词典在语音交互系统中的作用尤为重要。以导航的任务为例,“我要到北京”和“上海到北京”,通过领域词典POI(Point of Interest,兴趣点)可以区分这两句话的含义有所不同,第一句只有终点信息,其中“我要到”只是用户的常用的一种随其兴趣习惯的常用口语表达方式,而第二句则包含起点和终点两个信息。
在导航的语音交互任务中,POI的词典信息尤为重要,但是在实际使用中往往面临着一个问题就是不同的用户随着其POI兴趣习惯而对同一地名使用了多种灵活的说法,对于这种灵活的说法难以全面解析,使得解析的召回率很低。
为了解决这种情况,通常会使用基于规则和领域词典的识别方法,把相关的说法按照一定的语法进行组织,并进行领域词典的全面检索,得到相关语义文本的解析结果,或者使用基于统计的识别方法,一般是通过标注大量的语料,在标注语料上通过机器学习的方法进行训练,得到语音识别和语义解析的模型。
在实现本发明过程中,发明人发现相关技术中至少存在如下问题:
基于规则的方法一般都是严格按照字符匹配,智能匹配到规则中写的内容,对于语音交互系统中,较灵活的说法泛化能力较差,并且由于不同用户的说法不同,冲突也就越加严重,维护压力大。
领域词典的数量和质量也会影响交互的体验,在导航领域,地名POI词典数据巨大而且内容繁杂,没有规律可循,动态变化更新频繁,几乎任何内容词汇都可能作为POI名称,而且地名POI信息更新频繁,这导致地名POI的识别和解析十分困难。
基于统计的方法由于过于依赖标注语料的数量和质量,需要耗费大量人工来进行标注,并且由于地名POI的复杂性和没有规律性,使其识别POI地名的性能较低。
发明内容
为了至少解决现有技术中基于规则系统的严格匹配会导致泛化性能较差,召回率低,并且由于规则冲突会导致结果混乱,维护压力巨大,地名POI词库的数据巨大,没有规律可循,动态变化更新频繁,地名POI识别交互十分困难,统计的方法十分依赖标注语料,而且对于没有规律的POI地名性能较低的问题。
第一方面,本发明实施例提供一种POI导航地址的扩展方法,包括:
对现有的POI导航地址数据集中的各规范导航地址名称按照末尾词汇进行组织性质分类;
按照各组织性质类别的不同,对各组织性质类别下的规范导航地址名称进行分词,将分词后的各词汇划分成从属于各组织性质类别下的多个词典,其中,每一个组织性质类别下的多个词典至少包括:行政区域词典、组织性质词典;
对现有的POI导航地址数据集中的每一个规范导航地址的名称进行扩展处理,包括:
-为每一个组织性质类别下的多个词典之间制定组合简化称谓规则集,所述组合简化称谓规则集包括不同数量的词典之间的多个组合简化称谓规则;
-通过每一个规范导航地址的名称的末尾关键字,确定其所属的组织性质类别及该组织性质类别下的多个词典;
-判断分词后的各词汇在所述多个词典中命中的词典,基于命中的词典所属的至少一个组合简化称谓规则,扩展出新的导航地址名称;
基于所述新的导航地址名称,扩展所述POI导航地址数据集。
第二方面,本发明实施例提供一种POI导航地址的扩展系统,包括:
组织性质分类程序模块,用于对现有的POI导航地址数据集中的各规范导航地址名称按照末尾词汇进行组织性质分类;
词典划分程序模块,用于按照各组织性质类别的不同,对各组织性质类别下的规范导航地址名称进行分词,将分词后的各词汇划分成从属于各组织性质类别下的多个词典,其中,每一个组织性质类别下的多个词典至少包括:行政区域词典、组织性质词典;
名称扩展程序模块,用于对现有的POI导航地址数据集中的每一个规范导航地址的名称进行扩展处理,包括:
-为每一个组织性质类别下的多个词典之间制定组合简化称谓规则集,所述组合简化称谓规则集包括不同数量的词典之间的多个组合简化称谓规则;
-通过每一个规范导航地址的名称的末尾关键字,确定其所属的组织性质类别及该组织性质类别下的多个词典;
-判断分词后的各词汇在所述多个词典中命中的词典,基于命中的词典所属的至少一个组合简化称谓规则,扩展出新的导航地址名称;
POI导航地址扩展程序模块,用于基于所述新的导航地址名称,扩展所述POI导航地址数据集。
第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的POI导航地址的扩展方法的步骤。
第四方面,本发明实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本发明任一实施例的POI导航地址的扩展方法的步骤。
本发明实施例的有益效果在于:通过对遵循着一定的自然规律的规范导航地址名称进行组织性质分类,避免规则冲突导致的结果混乱,同时提高地名POI识别效率,确定各组织性质类别下从属的多个词典,通过判断分词后各词汇的组织性质类别以及该组织性质类别下命中的多个词典确定相应的简化称谓规则,从而扩展出新的导航地址名称进而提高了匹配的泛化性,提高召回率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种POI导航地址的扩展方法的流程图;
图2是本发明一实施例提供的一种POI导航地址的扩展系统的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示为本发明一实施例提供的一种POI导航地址的扩展方法的流程图,包括如下步骤:
S11:对现有的POI导航地址数据集中的各规范导航地址名称按照末尾词汇进行组织性质分类;
S12:按照各组织性质类别的不同,对各组织性质类别下的规范导航地址名称进行分词,将分词后的各词汇划分成从属于各组织性质类别下的多个词典,其中,每一个组织性质类别下的多个词典至少包括:行政区域词典、组织性质词典;
S13:对现有的POI导航地址数据集中的每一个规范导航地址的名称进行扩展处理,包括:
-为每一个组织性质类别下的多个词典之间制定组合简化称谓规则集,所述组合简化称谓规则集包括不同数量的词典之间的多个组合简化称谓规则;
-通过每一个规范导航地址的名称的末尾关键字,确定其所属的组织性质类别及该组织性质类别下的多个词典;
-判断分词后的各词汇在所述多个词典中命中的词典,基于命中的词典所属的至少一个组合简化称谓规则,扩展出新的导航地址名称;
S14:基于所述新的导航地址名称,扩展所述POI导航地址数据集。
在本实施方式中,导航地址中的规范导航地址名称都遵循着一定的自然规律,例如,北京师范大学、上海交通大学、北京邮电大学、东北林业大学、北京电影学院,北京市海淀医院、苏州大学附属第一医院、北京市和平里医院、上海虹桥国际机场,北京银行、北京招商银行、北京工商银行,北京首都国际机场、北京南苑机场,北京一加科技有限公司、苏州思必驰信息科技有限公司。这些导航地址名称都是由不同组织性质类别的专有词汇进行结尾,例如:**大学、**学院、**医院、**银行、**机场、**公司。
对于步骤S11,对现有的POI导航地址数据集中的各规范导航地址名称按照末尾词汇进行组织性质分类,例如,苏州大学,北京师范大学,上海交通大学末尾名称是“大学”,北京电影学院,南京晓庄学院末尾名称是“学院”,苏州市第一中学的末尾名称是“中学”,这一类词语的组织性质都与学校类型相关,划为一类。北京市海淀医院、苏州大学附属第一医院、北京市和平里医院末尾名称都为“医院”,将这一类词语的组织性质都与医院类型相关,划为一类,其余组织性质分类按照上述方法进行分类,在此不再赘述。
对于步骤S12,将各组织性质类别对各组织性质类别下的规范导航地址进行分词,将分词后的各词汇划分成从属于各组织性质类别下的多个词典,例如,对“苏州大学”进行分词,得到:苏州|大学,划分后,苏州划分到行政区域词典中,大学划分到组织性质词典中。对“上海交通大学”进行分词,得到:上海|交通|大学,划分后,上海划分到行政区域词典中,交通划分到所述组织性质的组织领域词典中,大学划分到组织性质词典中。其中所述组织性质的组织领域为,例如,“大学”是一类组织性质,而大学的组织领域有“科技大学”,“交通大学”,“电子大学”,“师范大学”,“理工大学”,其中的“科技”,“交通”,“电子”,“师范”,“理工”就为组织领域词典中的词汇。对“南京晓庄学院”进行分词,得到:南京|晓庄|学院,划分后,南京划分到行政区域词典中,晓庄划分到所述组织性质的专有名词词典中,学院划分到组织性质词典中,例如“大学”“学院”都为学校类型的组织性质,而有一些专属名称的大学或学院,比较知名的有:清华,暨南,复旦等,这些就为专有名词词典的词语。
对于步骤S13,对现有的POI导航地址数据集中的每一个规范导航地址的名称进行扩展处理,包括:
为每一个组织性质类别下的多个词典之间制定组合简化称谓规则集,由于组织性质类别不同,各类别规范导航地址名称遵循的自然规律略有不同,在制定组合简化称谓规则集时,需要定制不同数量的词典之间的多个简化组合称谓规则,以及简化缩略词的选择。
通过每一个规范导航地址的名称的末尾关键字,例如:“大学”、“医院”等,确定其所述的组织性质,以及组织性别类别下的多个词典,例如,“广东第一师范学院”经过分词,其涉及的多个词典包括:行政区域词典、组织性质词典、数字词典、组织领域词典。
判断分词后各词汇在所述多个词典中命中的词典,基于命中的词典所属的至少一个组合简化称谓规则,例如,各词语的简化缩略词,各缩略词排列的顺序等,在下述实施方式中会具体说明,进而扩展出新的导航地址名称。
S14,基于在步骤S13中扩展的新的导航地址名称,扩展所述POI导航地址数据集。
通过该实施方式可以看出,通过对遵循着一定的自然规律的规范导航地址名称进行组织性质分类,避免规则冲突导致的结果混乱,同时提高地名POI识别效率,确定各组织性质类别下从属的多个词典,通过判断分词后各词汇的组织性质类别以及该组织性质类别下命中的多个词典确定相应的简化称谓规则,从而扩展出新的导航地址名称进而提高了匹配的泛化性,提高召回率。
作为一种实施方式,在本实施例中,在所述判断分词后的各词汇在所述多个词典中命中的词典之前,所述方法还包括:
对所述每一个规范导航地址进行分词,利用该组织性质类别下的多个词典对分词结果进行校对纠正。
在本实施方式中,例如,对“广东第一师范学院”进行分词,假设划分成了:“广东”、“第”、“一”、“师范”、“学院”。通过词典匹配,利用该组织性质类别下的多个词典对其结果进行校对纠正,例如将“第”、“一”合并成“第一”。
通过该实施方式可以看出,在判断各词汇在所述多个词典中命中的词典之前,还需要对各词汇的分词结果进行纠正,通过进一步的校对纠正使得分词更加准确,进而扩展的POI别名更加精准。
作为一种实施方式,在本实施例中,所述组织性质类别下的多个词典至少还包括:专有名词词典、数字词典、组织领域词典;
所述判断分词后的各词汇在所述多个词典中命中的词典,基于命中的词典所属的至少一个组合简化称谓规则包括:
当所述分词后有两个词汇时,至少将所述两个词汇的缩略字/词进行组合,扩展出新的导航地址名称;
当所述两个词汇中的任一词汇命中专有名词词典时,至少将所述两个词汇的缩略字/词进行组合和/或所述命中专有名词词典的词汇,确定为扩展出的新的导航地址名称。
在本实施方式中,所述组织性质类别下还包括其他词典,例如,专有名词词典,数字词典,组织领域词典,其中,例如组织性质类别是“大学”,专有名词词典就是指“大学”性质类别的专有名词,例如“暨南大学、“复旦大学”,其中,“暨南”、“复旦”这些词汇都在专有名词词典中。数字词典中的词汇比较常见,例如,第一、第二等等量词词汇在数字词典中。同样的,组织性质类别是“大学”,组织领域词典就是指“大学”性质类别的组织领域,例如,“北京师范大学”、“上海交通大学”,其中的“师范”、“交通”这些词汇是指大学中的专门的领域。
当一个规范导航地址名称分词后,有两个词汇时,考虑到大部分POI说法习惯,至少将两个词汇的缩略字/词进行组合,例如“苏州大学”,分词后为:苏州|大学,提取所述两个词汇的缩略字,再通过预先制定组合简化称谓规则集里的组合简化称谓规则,进而组合出“苏大”这一新的导航地址名称。
当所述两个词汇中的任一词汇命中专有名词词典时,例如,“暨南大学”,将两个词汇的缩略字/词进行组合,组合出“暨大”。和/或命中的专有名词词典的“暨南”确定为扩展出的新的导航地址名称。
通过该实施方式可以看出,通过设立同种词典,可以更加精确的对规范导航地址名称进行分词。判断规范导航地址命中的词典,进而导向特定的组合简化称谓规则,从而生成更加符合用户POI习惯的新的导航地址名称。
作为一种实施方式,所述判断分词后的各词汇在所述多个词典中命中的词典,基于命中的词典所属的至少一个组合简化称谓规则包括:
当所述分词后的多个词汇达到或超过三个时,检测所述多个词汇命中的词典;
当所述分词后的多个词汇至少命中组织性质词典以及组织领域词典时,提取所述命中组织性质词典的词汇的缩略字/词以及命中组织领域词典的词汇的缩略字/词进行组合,和/或
提取所述命中组织性质词典的词汇的缩略字/词、所述命中组织领域词典的词汇的缩略字/词以及所述多个词汇命中组织性质类别下的其余词典的至少一个词汇或词汇的缩略字/词进行组合,和/或
提取所述命中组织领域词典的词汇的缩略字/词以及所述多个词汇中命中所述其余词典的至少一个词汇的缩略字/词进行组合,扩展出新的导航地址名称。
在本实施方式中,如果规范导航地址名称分词后达到或超过三个词汇时,检测所述多个词汇命中了哪些词典,如果多个词汇中,至少命中了组织性质词典以及组织领域词典时,例如,“上海交通大学”,分词后为:上海|交通|大学。
提取所述“交通”和“大学”的缩略字/词进行组合,扩展出“交大”。
提取“交通”和“大学”以及多个词汇命中组织性质类别下的其余词典的至少一个词汇或词汇的缩略字/词进行组合,例如还剩下“上海”,提取上海的词或缩略字/词,与“交大”进行组合,组合出“上交大”以及“上海交大”。
提取“交通”的缩略字/词与所述多个词汇中命中的其余词典中至少一个词汇的缩略字/词进行组合(其余词典中不包括组织性质词典),例如“上海”,进而,组合出“上交”。
又如“广东第一师范学院”,分词后为:广东|第一|师范|学院。
提取所述“师范”和“学院”的缩略字/词进行组合,扩展出“师院”。
提取“师范”和“学院”以及多个词汇命中组织性质类别下的其余词典的至少一个词汇或词汇的缩略字/词进行组合,假设“广东”没有缩略词,则可以生成,“广东一师院”、“广东第一师院”、“第一师院”、“一师院”。
提取“师范”的缩略字/词以及多个词汇中命中的其余的词典,“广东”、“第一”的缩略字词进行组合,可以生成:“广东一师”、“广东第一师范”、“第一师范”。
通过该实施方式可以看出,判断规范导航地址命中的词典,进而导向特定的组合简化称谓规则,从而生成更加符合用户POI习惯的新的导航地址名称。
作为一种实施方式,在本实施例中,所述当所述分词后的多个词汇达到或超过三个时,检测所述多个词汇命中的词典还包括:所述分词后的多个词汇至少命中组织性质词典以及专有名词词典;
所述分词后的多个词汇至少命中组织性质词典以及专有名词词典的组合简化称谓规则,适用于所述分词后的多个词汇至少命中组织性质词典以及组织领域词典的组合简化称谓规则之外,还包括:
提取所述命中组织性质词典的词汇以及命中专有名词词典的词汇进行组合,扩展出新的导航地址名称。
在本实施方式中,如果分词后的多个词汇中至少命中了组织性质词典以及专有名词词典时,例如“南京晓庄学院”,在组合时,除了使用上述规则,组合出“晓院”、“南晓院”、“南京晓院”、“南晓”之外,还提取命中组织性质词典的词汇以及命中专有名词词典的词汇进行组合为“晓庄学院”,进而扩展出新的导航地址名称。
通过该实施方式可以看出,判断规范导航地址命中的词典,进而导向特定的组合简化称谓规则,从而生成更加符合用户POI习惯的新的导航地址名称。
作为一种实施方式,在本实施例中,所述当所述分词后的多个词汇达到或超过三个时,检测所述多个词汇命中的词典还包括:
当所述分词后的多个词汇没有命中组织领域词典以及专有名词词典时,
提取命中所述行政区域词典的词汇或词汇的缩略字/词、命中所述数字词典的词汇的缩略字/词以及命中所述组织性质词典的词汇的缩略字/词进行组合,扩展出新的导航地址名称。
在本实施方式中,如果规范导航地址名称分词后,多个词汇中没有命中组织领域词典以及专有名词词典,例如“苏州市第一中学”。经过分词,得到:苏州市|第一|中学。
提取命中所述行政区域词典的词汇或词汇的缩略词,确定“苏”、“苏州”“苏州市”。
命中所述数字词典的词汇的缩略字/词以及命中所述组织性质词典的词汇的缩略字/词,确定为“一”、“中”。经过组合,得到“苏一中”、“苏州一中”、“苏州市一中”。
通过该实施方式可以看出,判断规范导航地址命中的词典,进而导向特定的组合简化称谓规则,从而生成更加符合用户POI习惯的新的导航地址名称。
作为一种实施方式,所述判断分词后的各词汇在所述多个词典中命中的词典,基于命中的词典所属的至少一个组合简化称谓规则还包括:
当所述分词后的任一词汇命中行政区域词典时,将所述行政区域词典中的其他词汇对所述任一词汇进行替换,以扩展出新的导航地址名称。
在本实施方式中,所述分词后的任一词汇命中行政区域词典,例如,“苏州思必驰信息科技有限公司”,其中,“苏州”命中了行政区域词典,进而,通过将行政区域词典中的其他词汇,例如,“北京”,“深圳”对其进行替换,扩展出“北京思必驰信息科技有限公司”、“深圳思必驰信息科技有限公司”,如果“苏州思必驰信息科技有限公司”经过上述方法进行扩展得到“苏州思必驰”这样的词语,那么同样的,也可以扩展出“北京思必驰”以及“深圳思必驰”。
通过该实施方式可以看出,判断规范导航地址命中的词典,进而导向特定的组合简化称谓规则,从而生成更加符合用户POI习惯的新的导航地址名称。
通过本方法对poi信息的处理和扩展,对原有的poi词典进行扩充,地名的召回率相对提高63.16%,极大的提高了poi的召回率,对语音识别和语义解析都有很大的改进作用。
如图2所示为本发明一实施例提供的一种POI导航地址的扩展系统的结构示意图,该系统可执行上述任意实施例所述的POI导航地址的扩展方法,并配置在终端中。
本实施例提供的一种POI导航地址的扩展系统包括:组织性质分类程序模块11,词典划分程序模块12,名称扩展程序模块13和POI导航地址扩展程序模块14。
其中,组织性质分类程序模块11用于对现有的POI导航地址数据集中的各规范导航地址名称按照末尾词汇进行组织性质分类;词典划分程序模块12用于按照各组织性质类别的不同,对各组织性质类别下的规范导航地址名称进行分词,将分词后的各词汇划分成从属于各组织性质类别下的多个词典,其中,每一个组织性质类别下的多个词典至少包括:行政区域词典、组织性质词典;名称扩展程序模块13用于对现有的POI导航地址数据集中的每一个规范导航地址的名称进行扩展处理,包括:-为每一个组织性质类别下的多个词典之间制定组合简化称谓规则集,所述组合简化称谓规则集包括不同数量的词典之间的多个组合简化称谓规则;-通过每一个规范导航地址的名称的末尾关键字,确定其所属的组织性质类别及该组织性质类别下的多个词典;-判断分词后的各词汇在所述多个词典中命中的词典,基于命中的词典所属的至少一个组合简化称谓规则,扩展出新的导航地址名称;POI导航地址扩展程序模块14用于基于所述新的导航地址名称,扩展所述POI导航地址数据集。
进一步地,所述名称扩展程序模块还用于:
对所述每一个规范导航地址进行分词,利用该组织性质类别下的多个词典对分词结果进行校对纠正。
进一步地,所述组织性质类别下的多个词典至少还包括:专有名词词典、数字词典、组织领域词典;
所述名称扩展程序模块还用于:
当所述分词后有两个词汇时,至少将所述两个词汇的缩略字/词进行组合,扩展出新的导航地址名称;
当所述两个词汇中的任一词汇命中专有名词词典时,至少将所述两个词汇的缩略字/词进行组合和/或所述命中专有名词词典的词汇,确定为扩展出的新的导航地址名称。
进一步地,所述名称扩展程序模块还用于:
当所述分词后的多个词汇达到或超过三个时,检测所述多个词汇命中的词典;
当所述分词后的多个词汇至少命中组织性质词典以及组织领域词典时,提取所述命中组织性质词典的词汇的缩略字/词以及命中组织领域词典的词汇的缩略字/词进行组合,和/或
提取所述命中组织性质词典的词汇的缩略字/词、所述命中组织领域词典的词汇的缩略字/词以及所述多个词汇命中组织性质类别下的其余词典的至少一个词汇或词汇的缩略字/词进行组合,和/或
提取所述命中组织领域词典的词汇的缩略字/词以及所述多个词汇中命中所述其余词典的至少一个词汇的缩略字/词进行组合,扩展出新的导航地址名称。
进一步地,所述名称扩展程序模块还用于:
当所述分词后的多个词汇达到或超过三个时,检测所述多个词汇命中的词典还包括:所述分词后的多个词汇至少命中组织性质词典以及专有名词词典;
所述分词后的多个词汇至少命中组织性质词典以及专有名词词典的组合简化称谓规则,适用于所述分词后的多个词汇至少命中组织性质词典以及组织领域词典的组合简化称谓规则之外,还包括:
提取所述命中组织性质词典的词汇以及命中专有名词词典的词汇进行组合,扩展出新的导航地址名称。
进一步地,所述名称扩展程序模块还用于:
当所述分词后的多个词汇没有命中组织领域词典以及专有名词词典时,
提取命中所述行政区域词典的词汇或词汇的缩略字/词、命中所述数字词典的词汇的缩略字/词以及命中所述组织性质词典的词汇的缩略字/词进行组合,扩展出新的导航地址名称。
进一步地,所述名称扩展程序模块还用于:当所述分词后的任一词汇命中行政区域词典时,将所述行政区域词典中的其他词汇对所述任一词汇进行替换,以扩展出新的导航地址名称。
本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的POI导航地址的扩展方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
对现有的POI导航地址数据集中的各规范导航地址名称按照末尾词汇进行组织性质分类;
按照各组织性质类别的不同,对各组织性质类别下的规范导航地址名称进行分词,将分词后的各词汇划分成从属于各组织性质类别下的多个词典,其中,每一个组织性质类别下的多个词典至少包括:行政区域词典、组织性质词典;
对现有的POI导航地址数据集中的每一个规范导航地址的名称进行扩展处理,包括:
-为每一个组织性质类别下的多个词典之间制定组合简化称谓规则集,所述组合简化称谓规则集包括不同数量的词典之间的多个组合简化称谓规则;
-通过每一个规范导航地址的名称的末尾关键字,确定其所属的组织性质类别及该组织性质类别下的多个词典;
-判断分词后的各词汇在所述多个词典中命中的词典,基于命中的词典所属的至少一个组合简化称谓规则,扩展出新的导航地址名称;
基于所述新的导航地址名称,扩展所述POI导航地址数据集。
作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的测试软件的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中,当被处理器执行时,执行上述任意方法实施例中的POI导航地址的扩展方法。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据测试软件的装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至测试软件的装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的POI导航地址的扩展方法的步骤。
本申请实施例的客户端以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如平板电脑。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)其他具有导航功能的电子装置。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (9)
1.一种POI导航地址的扩展方法,包括:
对现有的POI导航地址数据集中的各规范导航地址名称按照末尾词汇进行组织性质分类;
按照各组织性质类别的不同,对各组织性质类别下的规范导航地址名称进行分词,将分词后的各词汇划分成从属于各组织性质类别下的多个词典,其中,每一个组织性质类别下的多个词典至少包括:行政区域词典、组织性质词典、组织领域词典;
对现有的POI导航地址数据集中的每一个规范导航地址的名称进行扩展处理,包括:
-为每一个组织性质类别下的多个词典之间制定组合简化称谓规则集,所述组合简化称谓规则集包括不同数量的词典之间的多个组合简化称谓规则;
-通过每一个规范导航地址的名称的末尾关键字,确定其所属的组织性质类别及该组织性质类别下的多个词典;
-判断分词后的各词汇在所述多个词典中命中的词典,基于命中的词典所属的至少一个组合简化称谓规则,其中,当所述分词后的多个词汇达到或超过三个时,检测所述多个词汇命中的词典;
当所述分词后的多个词汇至少命中组织性质词典以及组织领域词典时,提取所述命中组织性质词典的词汇的缩略字/词以及命中组织领域词典的词汇的缩略字/词进行组合,和/或
提取所述命中组织性质词典的词汇的缩略字/词、所述命中组织领域词典的词汇的缩略字/词以及所述多个词汇命中组织性质类别下的其余词典的至少一个词汇或词汇的缩略字/词进行组合,和/或
提取所述命中组织领域词典的词汇的缩略字/词以及所述多个词汇中命中所述其余词典的至少一个词汇的缩略字/词进行组合,扩展出新的导航地址名称;
基于所述新的导航地址名称,扩展所述POI导航地址数据集。
2.根据权利要求1所述的方法,其中,在所述判断分词后的各词汇在所述多个词典中命中的词典之前,所述方法还包括:
对所述每一个规范导航地址进行分词,利用该组织性质类别下的多个词典对分词结果进行校对纠正。
3.根据权利要求1所述的方法,其中,所述组织性质类别下的多个词典至少还包括:专有名词词典、数字词典;
所述判断分词后的各词汇在所述多个词典中命中的词典,基于命中的词典所属的至少一个组合简化称谓规则包括:
当所述分词后有两个词汇时,至少将所述两个词汇的缩略字/词进行组合,扩展出新的导航地址名称;
当所述两个词汇中的任一词汇命中专有名词词典时,至少将所述两个词汇的缩略字/词进行组合和/或所述命中专有名词词典的词汇,确定为扩展出的新的导航地址名称。
4.根据权利要求3所述的方法,其中,所述当所述分词后的多个词汇达到或超过三个时,检测所述多个词汇命中的词典还包括:所述分词后的多个词汇至少命中组织性质词典以及专有名词词典;
所述分词后的多个词汇至少命中组织性质词典以及专有名词词典的组合简化称谓规则,适用于所述分词后的多个词汇至少命中组织性质词典以及组织领域词典的组合简化称谓规则之外,还包括:
提取所述命中组织性质词典的词汇以及命中专有名词词典的词汇进行组合,扩展出新的导航地址名称。
5.根据权利要求3所述的方法,其中,所述当所述分词后的多个词汇达到或超过三个时,检测所述多个词汇命中的词典还包括:
当所述分词后的多个词汇没有命中组织领域词典以及专有名词词典时,
提取命中所述行政区域词典的词汇或词汇的缩略字/词、命中所述数字词典的词汇的缩略字/词以及命中所述组织性质词典的词汇的缩略字/词进行组合,扩展出新的导航地址名称。
6.根据权利要求1所述的方法,其中,所述判断分词后的各词汇在所述多个词典中命中的词典,基于命中的词典所属的至少一个组合简化称谓规则还包括:
当所述分词后的任一词汇命中行政区域词典时,将所述行政区域词典中的其他词汇对所述任一词汇进行替换,以扩展出新的导航地址名称。
7.一种POI导航地址的扩展系统,包括:
组织性质分类程序模块,用于对现有的POI导航地址数据集中的各规范导航地址名称按照末尾词汇进行组织性质分类;
词典划分程序模块,用于按照各组织性质类别的不同,对各组织性质类别下的规范导航地址名称进行分词,将分词后的各词汇划分成从属于各组织性质类别下的多个词典,其中,每一个组织性质类别下的多个词典至少包括:行政区域词典、组织性质词典、组织领域词典;
名称扩展程序模块,用于对现有的POI导航地址数据集中的每一个规范导航地址的名称进行扩展处理,包括:
-为每一个组织性质类别下的多个词典之间制定组合简化称谓规则集,所述组合简化称谓规则集包括不同数量的词典之间的多个组合简化称谓规则;
-通过每一个规范导航地址的名称的末尾关键字,确定其所属的组织性质类别及该组织性质类别下的多个词典;
-判断分词后的各词汇在所述多个词典中命中的词典,基于命中的词典所属的至少一个组合简化称谓规则,其中,当所述分词后的多个词汇达到或超过三个时,检测所述多个词汇命中的词典;
当所述分词后的多个词汇至少命中组织性质词典以及组织领域词典时,提取所述命中组织性质词典的词汇的缩略字/词以及命中组织领域词典的词汇的缩略字/词进行组合,和/或
提取所述命中组织性质词典的词汇的缩略字/词、所述命中组织领域词典的词汇的缩略字/词以及所述多个词汇命中组织性质类别下的其余词典的至少一个词汇或词汇的缩略字/词进行组合,和/或
提取所述命中组织领域词典的词汇的缩略字/词以及所述多个词汇中命中所述其余词典的至少一个词汇的缩略字/词进行组合,扩展出新的导航地址名称;
POI导航地址扩展程序模块,用于基于所述新的导航地址名称,扩展所述POI导航地址数据集。
8.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述方法的步骤。
9.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-6中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910509999.5A CN110209755B (zh) | 2019-06-13 | 2019-06-13 | Poi导航地址的扩展方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910509999.5A CN110209755B (zh) | 2019-06-13 | 2019-06-13 | Poi导航地址的扩展方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110209755A CN110209755A (zh) | 2019-09-06 |
CN110209755B true CN110209755B (zh) | 2021-06-18 |
Family
ID=67792373
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910509999.5A Active CN110209755B (zh) | 2019-06-13 | 2019-06-13 | Poi导航地址的扩展方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110209755B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20110069255A (ko) * | 2009-12-17 | 2011-06-23 | 한국건설기술연구원 | 시맨틱 공간쿼리를 이용한 의미기반 poi 검색 시스템 및 방법 |
CN104298752A (zh) * | 2014-10-15 | 2015-01-21 | 扬州大学 | 基于web网页资源的程序代码缩略词的自动扩充方法 |
CN105159949A (zh) * | 2015-08-12 | 2015-12-16 | 北京京东尚科信息技术有限公司 | 一种中文地址分词方法及系统 |
CN106055650A (zh) * | 2016-05-31 | 2016-10-26 | 深圳市永兴元科技有限公司 | 地址标准化方法和装置 |
CN107145577A (zh) * | 2017-05-08 | 2017-09-08 | 上海东方网络金融服务有限公司 | 地址标准化方法、装置、存储介质及计算机 |
CN107862046A (zh) * | 2017-11-07 | 2018-03-30 | 宁波爱信诺航天信息有限公司 | 一种基于短文本相似度的税务商品编码分类方法及系统 |
RU2017115716A (ru) * | 2017-05-04 | 2018-11-08 | Общество С Ограниченной Ответственностью "Яндекс" | Способ отрисовки поисковых результатов на карте, отображаемой на электронном устройстве |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105022748B (zh) * | 2014-04-28 | 2019-05-07 | 高德软件有限公司 | 一种运单地址分级方法及装置 |
CN108984159B (zh) * | 2018-06-15 | 2021-06-15 | 浙江网新恒天软件有限公司 | 一种基于马尔可夫语言模型的缩略词组扩展方法 |
CN109145073A (zh) * | 2018-08-28 | 2019-01-04 | 成都市映潮科技股份有限公司 | 一种基于分词算法的地址解析方法及装置 |
CN109614493B (zh) * | 2018-12-29 | 2023-02-03 | 重庆邂智科技有限公司 | 一种基于监督词向量的文本缩写识别方法及系统 |
-
2019
- 2019-06-13 CN CN201910509999.5A patent/CN110209755B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20110069255A (ko) * | 2009-12-17 | 2011-06-23 | 한국건설기술연구원 | 시맨틱 공간쿼리를 이용한 의미기반 poi 검색 시스템 및 방법 |
CN104298752A (zh) * | 2014-10-15 | 2015-01-21 | 扬州大学 | 基于web网页资源的程序代码缩略词的自动扩充方法 |
CN105159949A (zh) * | 2015-08-12 | 2015-12-16 | 北京京东尚科信息技术有限公司 | 一种中文地址分词方法及系统 |
CN106055650A (zh) * | 2016-05-31 | 2016-10-26 | 深圳市永兴元科技有限公司 | 地址标准化方法和装置 |
RU2017115716A (ru) * | 2017-05-04 | 2018-11-08 | Общество С Ограниченной Ответственностью "Яндекс" | Способ отрисовки поисковых результатов на карте, отображаемой на электронном устройстве |
CN107145577A (zh) * | 2017-05-08 | 2017-09-08 | 上海东方网络金融服务有限公司 | 地址标准化方法、装置、存储介质及计算机 |
CN107862046A (zh) * | 2017-11-07 | 2018-03-30 | 宁波爱信诺航天信息有限公司 | 一种基于短文本相似度的税务商品编码分类方法及系统 |
Non-Patent Citations (2)
Title |
---|
互联网网页蕴含高动态交通信息的实时搜索与语义理解技术研究;张献力;《中国优秀硕士学位论文全文数据库 信息科技辑》;20150315(第3期);第3.1.2节 * |
本地搜索领域POI缩略词词典的研究;黄鹤;《中国优秀硕士学位论文全文数据库 信息科技辑》;20120315(第3期);第1-2章,第4-5章 * |
Also Published As
Publication number | Publication date |
---|---|
CN110209755A (zh) | 2019-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110210029B (zh) | 基于垂直领域的语音文本纠错方法、系统、设备及介质 | |
US10410627B2 (en) | Automatic language model update | |
US8959014B2 (en) | Training acoustic models using distributed computing techniques | |
US7983902B2 (en) | Domain dictionary creation by detection of new topic words using divergence value comparison | |
CN108711420A (zh) | 多语言混杂模型建立、数据获取方法及装置、电子设备 | |
CN109858038B (zh) | 一种文本标点确定方法及装置 | |
CN111862942B (zh) | 普通话和四川话的混合语音识别模型的训练方法及系统 | |
CN112487139B (zh) | 基于文本的自动出题方法、装置及计算机设备 | |
CN107437417B (zh) | 基于循环神经网络语音识别中语音数据增强方法及装置 | |
CN103268313A (zh) | 一种自然语言的语义解析方法及装置 | |
CN110223678A (zh) | 语音识别方法及系统 | |
CN110569364A (zh) | 在线教学方法、装置、服务器及存储介质 | |
CN110853422A (zh) | 一种沉浸式语言学习系统及其学习方法 | |
CN116127046A (zh) | 生成式大语言模型训练方法、基于模型的人机语音交互方法 | |
CN111680129B (zh) | 语义理解系统的训练方法及系统 | |
CN111723207B (zh) | 意图识别方法及系统 | |
CN112767969A (zh) | 用于语音信息的情感倾向性确定方法及系统 | |
Tatman | # go awn: Sociophonetic variation in variant spellings on Twitter | |
CN111507114B (zh) | 基于反向翻译的口语文本增强方法及系统 | |
CN107910005A (zh) | 交互文本的目标业务定位方法及装置 | |
CN114297372A (zh) | 个性化的笔记生成方法及系统 | |
CN111063337B (zh) | 可快速更新语言模型的大规模语音识别方法及系统 | |
CN112749544B (zh) | 段落分割模型的训练方法及系统 | |
CN111966839B (zh) | 数据处理方法、装置、电子设备及计算机存储介质 | |
CN110570838B (zh) | 语音流处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant after: Sipic Technology Co.,Ltd. Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant before: AI SPEECH Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |