CN106909611A - 一种基于文本信息抽取的酒店自动匹配方法 - Google Patents
一种基于文本信息抽取的酒店自动匹配方法 Download PDFInfo
- Publication number
- CN106909611A CN106909611A CN201710019378.XA CN201710019378A CN106909611A CN 106909611 A CN106909611 A CN 106909611A CN 201710019378 A CN201710019378 A CN 201710019378A CN 106909611 A CN106909611 A CN 106909611A
- Authority
- CN
- China
- Prior art keywords
- word
- hotel
- participle
- text
- name
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000000605 extraction Methods 0.000 title claims abstract description 15
- 238000003066 decision tree Methods 0.000 claims abstract description 19
- 238000012545 processing Methods 0.000 claims abstract description 7
- 230000011218 segmentation Effects 0.000 claims description 30
- 230000033228 biological regulation Effects 0.000 claims description 18
- 238000011430 maximum method Methods 0.000 claims description 7
- 206010028916 Neologism Diseases 0.000 claims description 4
- 230000015572 biosynthetic process Effects 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 4
- 230000000717 retained effect Effects 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 238000003786 synthesis reaction Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 241000196324 Embryophyta Species 0.000 description 1
- 241000270322 Lepidosauria Species 0.000 description 1
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 239000003513 alkali Substances 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000007596 consolidation process Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
Abstract
本发明公开了一种基于文本信息抽取的酒店自动匹配方法。本方法为:1)对目标酒店的酒店信息进行要素提取,对待匹配酒店的酒店信息进行要素提取;2)根据步骤1)提取的要素,采用决策树算法计算目标酒店与该待匹配酒店之间的匹配度;其中,对于酒店信息中的酒店名称、酒店地址进行要素抽取的方法为:11)对汉字序列进行规范化处理;其中,汉字序列为酒店名称或酒店地址;12)对规范化后的文本进行分词,得到一词序列;13)从所述词序列中进行要素抽取,并标注要素类别。本发明提高了匹配的鲁棒性,避免无用信息对匹配过程中的干扰。
Description
技术领域
本发明属于信息技术领域,涉及在线旅游网站、比价平台、酒店信息聚合、爬虫链接的自动获取等技术领域,特别是涉及一种基于文本信息抽取的酒店自动匹配方法。
背景技术
随着在线旅游网站的飞速发展,酒店在线预定平台云集,多个平台推出了价格对比功能。要进行价格对比首先要确定不同平台酒店的匹配关系,为了降低人工匹配成本,大多釆用自动匹配的方法,但传统的釆用字符串的匹配方法有以下不足:
●模糊匹配准确率难以控制;
●酒店名称的表述方式不同,导致的无法匹配;
●地址信息的表述方式不同,导致的无法匹配;
●酒店城市表述粒度不同,导致的无法匹配;
●酒店电话的表述方式不同,导致的无法匹配。
发明内容
针对上述问题,本发明的目的在于提供一种基于文本信息抽取的酒店自动匹配方法。
本发明充分利用文本信息,从文本中抽取出酒店的关键要素,提高了匹配的鲁棒性,避免无用信息对匹配过程中的干扰。酒店匹配的依据有:
1.酒店名称;
2.酒店地址;
3.酒店所在城市;
4.酒店经纬度;
5.酒店电话。
本发明的酒店自动匹配方法分为两大阶段:
1、酒店的要素抽取。该阶段我们从酒店的信息中,抽取出关键的要素。酒店信息包括酒店名称、酒店地址、酒店电话。要素是指更细粒度的酒店特征,例如酒店名称关键字,分店名称,酒店所在街道,酒店电话区号等等。该阶段更具体的步骤如下:
a)文本规范化。该步骤包括统一中文标点,统一英文大小写,统一全角半角字符,滤除html等无用的信息。
b)对文本进行分词。该步骤先根据词典和统计的方法进行初步切分,之后通过后缀词和模板进一步分词得到最终的分词结果。
c)抽取要素信息。该步骤根据匹配的模板确定要素位置,并将其内容抽取出来。
2、计算匹配度。匹配度是指两家酒店匹配关系的概率。该阶段我们使用第一阶段抽取的酒店要素,通过使用决策树算法计算它们的匹配度。
本发明的技术方案为:
一种基于文本信息抽取的酒店自动匹配方法,其步骤为:
1)对目标酒店的酒店信息进行要素提取,对待匹配酒店的酒店信息进行要素提取;
2)根据步骤1)提取的要素,采用决策树算法计算目标酒店与该待匹配酒店之间的匹配度;
其中,对于酒店信息中的酒店名称、酒店地址进行要素抽取的方法为:
11)对汉字序列进行规范化处理;其中,汉字序列为酒店名称或酒店地址;
12)对规范化后的文本进行分词,得到一词序列;
13)从所述词序列中进行要素抽取,并标注要素类别。
进一步的,得到所述词序列的方法为:对于待分词的文本,采用正向最大匹配和逆向最大匹配分别依次寻找匹配的最长词典词,如果该文本中存在没有被匹配上的单词,则将其作为单字词处理,直至该汉字序列处理完毕;对于正向最大匹配和逆向最大匹配不一致的单词作为有歧义的分词,采用有监督的序列标注的分词方法进行分词,得到所述词序列。
进一步的,对于酒店地址对应的所述词序列中的每一个词,将该词与其前面的词进行合并形成新的词,并且对新合并的词添加后缀词合成标记,然后将该合并成的新词放入候选集中;然后对于该候选集中的每一个词,如果该词是地址词词库中的词,则将其类别标记为地址类型,否则继续判断该词是否有后缀词合成标记,如果是则标记为该后缀词对应的类型,否则将该词的类别标记为无类型;然后过滤掉含有非该酒店所在地区相关地址词的分词;然后通过分词规则模板库进行筛选,只保留分词规则模板库中包含的结构化形式的分词;对于酒店名称对应的所述词序列中的每一个词,将该词与其前面的词进行合并形成新的词,并且对新合并的词添加后缀词合成标记,然后将该合并成的新词放入候选集中;然后对于该候选集中的每一个词,如果该词是酒店名称词词库中的词,则将其类别标记为酒店名称类型,否则继续判断该词是否有后缀词合成标记,如果是则标记为该后缀词对应的类型,否则将该词的类别标记为无类型;然后过滤掉含有非该酒店名称分词的词;然后通过分词规则模板库进行筛选,只保留分词规则模板库中包含的结构化形式的分词。
进一步的,生成所述分词规则模板库的方法为:首先对选取的样本文本进行规范化;然后对规范化后的结果进行分词并标记词类型,生成结构化文本;统计各结构化文本的频次,挑选频次高于设定阈值的结构化文本为分词规则模板,得到所述分词规则模板库。
进一步的,生成所述后缀词词典的方法为:首先从批量的酒店数据样本中选取酒店名称的后若干个字,然后对剩余的文本进行全切分;统计词频次并挑选频次大于设定阈值的词;对挑选出的每一词,计算该词的左邻字的熵,将熵大于设定阈值的词作为所述后缀词词典的词。
进一步的,所述酒店名称要素包括名称关键字、酒店类型、分店名称、原店名称;所述酒店地址要素包括省份、城市、区、乡镇、村、街、路巷、路号、段、POI。
进一步的,使用决策树算法计算所述匹配度;所述决策树算法构建的树结构为二叉树或非二叉树,其中,每个非叶节点表示一个特征属性上的测试,连接非叶节点的分支代表该非叶节点对应的特征属性在该特征属性的值域上的输出,每个叶节点存放一个类别。
进一步的,生成所述决策树的方法为:
81)从酒店的酒店信息中确定待匹配的特征;
82)对每种特征进行度量得到该特征的增益率;
83)选择增益率最大的特征进行分裂,形成该酒店的决策树。
与现有技术相比,本发明的积极效果为:
本发明在只提供酒店名称、地址和城市的前提下,相较于传统的全字符串匹配的方式,召回率提升了30%。
附图说明
图1为本发明的方法流程图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
因为酒店名称和酒店地址的处理方式基本相同,因此将其放在一起进行说明,以下步骤中的1-3即为酒店名称和酒店地址的通用处理方法。具体实施时可以先对酒店名称进行步骤1-3的处理,再对酒店地址进行1-3的处理,最后是步骤4。
步骤1文本规范化
文本规范化的意义有两个,一是将拥有相同意义的不同文本转换成统一格式,二是将文本中无意义并且干扰后续处理的内容进行删除。规范化的处理给后续的分析减轻了负担。具体的规范化的内容有:
1.统一中英文标点。
2.统一全角半角字符。
3.去除掉括号内容中含有非“原酒店”信息或“分店”信息的内容。
4.繁体转简体。
5.中文数字转换成普通数字。
步骤2文本分词
该步骤在上述规范化后的结果上对酒店名称或酒店地址进行分词。中文分词是中文自然语言处理的基础步骤。因为酒店名称是开放集合很难整理全,通过词表的分词方法是无法正确的进行分词的。为了解决这一问题,我们先釆用基于词库的方式对其进行粗分词,然后再基于后缀词进行再分词。酒店地址文本中的街道名称和POI也都是开放集合,因此酒店地址分词方法与酒店名称基本相同。具体步骤分为如下两个阶段:
阶段1,首先采用基于词典的最大匹配分词方法,针对分词有歧义的部分再采用序列标注的分词方法,这样就可能得到粗分词结果。
基于词典的最大匹配分词方法,给定词典,对于待分词的汉字序列即酒店名称或地址,依次寻找匹配的最长词典词,无匹配者则作为单字词处理,直至该汉字序列处理完毕。按照对汉字序列扫描方向的不同,该方法又可以分为:正向最大匹配(从左向右匹配)和逆向最大匹配(从右向左匹配)。例如,对于序列“当原子结合成分子时”,正向最大匹配结果为“当|原子|结合|成|分子|时”,而逆向最大匹配结果为“当|原子|结合|成分|子时”。经过最大匹配分词方法的处理可得到酒店的名称或地址的正向最大匹配和逆向最大匹配的两种分词结果。
显然,正向最大匹配和逆向最大匹配都不能很好地处理切分歧义问题。正向最大匹配和逆向最大匹配也可以结合形成双向最大匹配,双向匹配时正向和逆向匹配不一致的地方,往往是潜在歧义的地方。有歧义往往需要根据具体上下文确认分词结果。有监督的序列标注方法能够充分的挖掘上下文的丰富特征,因此有歧义的情况下本发明引入序列标注方法消除歧义。该方法将词的切分问题转换为字的分类问题,每个字根据其在词中的不同位置,赋予不同的位置类别标记,比如词首、词中、词尾和单字词。基于这样的标记序列,很容易确定句子的切分方式。其中,B(Begin)、M(Middle)、E(End)、S(Single)分别表示词首、词中、词尾、单字词。有了字的标记序列,符合正则表达式“S”或“B(M)*E”的字序列表示一个词,从而很容易地完成句子切分。为了实现序列标注任务,本发明采用条件随机场模型(Conditional Random Fields,CRF),该模型在自然语言处理中得到广泛应用,并取得了很大成功。具体特征包括:前一个字、当前字、后一个字、前一个字与当前字、当前字与后一个字,以及基于这些一元特征的二元特征。条件随机场模型利用提取的这些特征,预测出的每个字的类别标记。
最大匹配方法的词典以及有监督的条件随机场模型的训练学习语料都来自本发明人工标注的1万家酒店数据。
阶段2,具体过程如下:
1.在上一阶段的粗分词结果上,分别与前面的词进行合并形成新的词,并且对新合并的词添加“后缀词合成”标记,标记目的是表明该词是由后缀词合并而成的,并作为一种分词方案放入分词方案集合中。例如“北京首都机场宾馆”,经过阶段1的处理后的结果为“北京|首都|机场|宾馆”,通过后缀词词典可以知道,“宾馆”是后缀词,将“机场”与“宾馆”合并形成“机场宾馆”,对应新的分词方案为“北京|首都|机场宾馆”;将“首都|机场”与“宾馆”合并形成“首都机场宾馆”,对应新的分词方案为“北京|首都机场宾馆”;将“北京|首都|机场”与“宾馆”合并形成“北京首都机场宾馆”,对应新的分词方案为“北京首都机场宾馆”。
2.通过地址词词库和后缀词词典对上一步得到的分词方案集合中所有分词方案自动标记词类型。标记类型的时候,对于每一个词,先判断是否为地址词词库中的词。如果是地址词则标记类型为“LOCATION”即地址类型,否则继续通过该词是否有“后缀词合成”标记,判断是否为由后缀词组成的词,如果是则标记为该后缀词对应的类型(后缀词的类型来自事先人工标注),否则标记类型为“X”即无类型。酒店名称包含类型包括位置,酒店类型等,酒店地址包含的类型有省份,城市,街道等。还是以上一个步骤例子进行说明,“北京|首都机场宾馆”,标记类型后为“LOCATION|HOTEL”;“北京|首都|机场宾馆”,标记类型后为“LOCATION|X|HOTEL”。
3.过滤含有非该酒店所在地区相关地址词的候选分词方案,例如“北京内蒙古宾馆”所在城市为“北京”,但“内蒙古”会被错误的标记为“LOCATION”,因为“北京”与“内蒙古”并无关,因此重新将“内蒙古”标记为“X”即无类型。
4.然后通过分词规则模板库进行筛选,只保留规则库中包含的结构化形式的分词。
5.在剩余的候选分词方案中挑选出分词数量最多的候选分词。例如“北京|首都机场宾馆”对应的“LOCATION|HOTEL”与“北京首都机场宾馆”对应的“HOTEL”同时满足规则,显然“北京|首都机场宾馆”是更好的分词结果。
下面通过实例作进一步说明,
从上面的步骤可以看出,词典和分词规则的整理是分词过程的关键,决定了分词结果的好坏,下面分别给出词典和分词规则模板库的生成方法。
分词规则模板库生成的具体步骤如下:
1.选取大量样本文本,并对每个样本文本进行如下处理。
2.对文本进行规范化。
3.对规范化后的结果进行基本分词。
4.标记词类型,生成结构化文本也就是模板。
5.统计结构化文本的频次,挑选频次较高的模板。
6.在以上结果的基础上进行人工筛选。
为了进一步说明分词规则模板库生成过程,以“北京如家快捷酒店(德胜门安德路店)”为实例,详细过程:
1.规范化:北京如家快捷酒店(德胜门安德路店)
2.基本分词:北京|如家|快捷酒店|德胜门安德路|店
3.生成结构化文本:LOCATION X SUFFIX X BRANCH
因为一些词是有歧义的,过程也会产生一些有问题的模板,例如“老北京彩虹度假客栈”正常的分词结果为“老|北京|彩虹|度假客栈”,对应的模板为“X LOCATION X HOTEL”并不是正确的分词模板规则,因此先通过频次进行过滤,再人工进行筛选以保证模板规则的准确性。
后缀词词典的生成的具体步骤(以酒店类型后缀词为例):
1.从批量的酒店数据样本中选取酒店名称的后5个字。
2.对剩余的文本进行全切分。例如,“如家酒店”,全切分后可得到4个词“店”,“酒店”,“家酒店”,“如家酒店”。
3.统计词频次并挑选频次较高的词。
4.对词频较高的词计算左邻字的熵,进行一步挑选熵较高的词。“熵”反应了该词的左邻字的丰富度,而丰富度越高越能是一个正确的词。
5.在以上结果的基础上进行人工筛选,最后的结果即为后缀词词典。
步骤3要素抽取
要素抽取是将文本中的要素识别出来,并标记上其相应的类别标签。
酒店名称的要素包括名称关键字、酒店类型、分店名称、原店名称。以“7天连锁酒店(东莞东城万达广场主山店原东城政府店)”为例,名称关键字为“7天”,酒店类型“连锁酒店”,分店名称为“东城万达广场主山店”,原店为“东城政府店”。酒店地址要素包括省份、城市、区、乡镇、村、街、路巷、路号、段、POI等。以“兰州市城关区酒泉路街道硷滩巷21-22号(城关交警大队附近)”为例,城市为“兰州市”,区为“城关区”,街为“酒泉路街道”,巷为“硷滩巷”,路号为“21-22”,POI为“城关交警大队”。
步骤4匹配度计算
将待匹配的两家酒店分别进行以上步骤的处理后,就可以进行匹配度的计算了。
匹配度是指两家酒店是多大的概率是匹配关系。此类问题可以转换成二两类问题。匹配度的计算使用决策树算法。决策树(decision tree)是一个树结构(可以是二叉树或非二叉树)。其每个“非叶”节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,例如“酒店名称是否一致”这个特征的值域为[-1(不一致),0(缺省),1(一致)];而每个叶节点存放一个类别(即匹配或不匹配)。
具体步骤如下:
步骤11)根据业务知识确定特征,具体特征如下:
1、“酒店名称是否一致”取值-1(不一致),0(缺省),1(一致);
2、“酒店地址是否一致”取值-1(不一致),0(缺省),1(一致);
3、“酒店名称关键字是否一致”取值-1(不一致),0(缺省),1(一致);
4、“酒店名称后缀是否一致”取值-1(不一致),0(缺省),1(一致);
5、“酒店分店信息是否一致”取值-1(不一致),0(缺省),1(一致);
6、“酒店原店信息是否一致”取值-1(不一致),0(缺省),1(一致);
7、“酒店所在城市是否一致”取值-1(不一致),0(缺省),1(一致);
8、“酒店所在街路是否一致”取值-1(不一致),0(缺省),1(一致);
9、“POI是否一致”取值-1(不一致),0(缺省),1(一致);
10、“酒店所在路号是否一致”取值-1(不一致),0(缺省),1(一致);
11、“酒店电话是否一致”取值-1(不一致),0(缺省),1(一致);
12、“酒店距离”取值为“500米内”,“1公里内”,“2公里内”,“4公里内”,“8公里内”,“10公里内”,“10公里以上”。
步骤12)分裂属性度量标准
在这里使用ID3算法进行度量。根据信息论,期望信息越小,信息增益越大,从而纯度越高。所以ID3算法的核心思想就是以信息增益度量属性选择,选择分裂后信息增益最大的属性进行分裂。下面先定义几个要用到的概念。
设D为用类别对训练元组进行的划分,则D的熵(entropy)表示为:
其中m表示类别数量,pi表示第i个类别在整个训练元组中出现的概率,可以用属于此类别元素的数量除以训练元组元素总数量作为估计。熵的实际意义表示是D中元组的类标号所需要的平均信息量。
将训练元组D按属性A进行划分,则A对D划分的期望信息为:
其中v表示属性A所有可能集合的数量,Dj是D中属性A的值为第j个可能的子集。
而信息增益即为两者的差值:
gain(A)=in fo(D)-in foA(D)
步骤13)树的生成
计算每个属性的增益率,然后选择增益率最大的属性进行分裂。最后形成树形结构。
决策树的训练学习语料都来自本发明人工标注的1万家酒店数据。
决策树生成之后就可应用到具体的酒店匹配度计算中了,具体计算步骤如下:
1.通过两家酒店抽取出的要素生成决策树的特征。“酒店名称是否一致”等特征的计算方式较简单,通过比较两家酒店的相应要素的字符串即可,如果相同则值为1,不同为-1,如果双方至少有一家酒店的要素缺失,则值为0。“酒店距离”的计算方式有些不同,“酒店距离”通过酒店的经纬度信息,使用Haversine公式进行计算,计算公式如下:
其中d表示两家酒店距离,r表示地球半径值为6367000,与λ1是与λ2分别是要匹配的两家酒店的纬度和经度。d的单位是米,根据d的值就可以确定“酒店距离”特征的值。例如d<500,“酒店距离”的值为“500米内”;d<1000,值为“1公里内”。
2.通过生成的特征,使用决策树进行匹配度计算。使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
Claims (8)
1.一种基于文本信息抽取的酒店自动匹配方法,其步骤为:
1)对目标酒店的酒店信息进行要素提取,对待匹配酒店的酒店信息进行要素提取;
2)根据步骤1)提取的要素,采用决策树算法计算目标酒店与该待匹配酒店之间的匹配度;
其中,对于酒店信息中的酒店名称、酒店地址进行要素抽取的方法为:
11)对汉字序列进行规范化处理;其中,汉字序列为酒店名称或酒店地址;
12)对规范化后的文本进行分词,得到一词序列;
13)从所述词序列中进行要素抽取,并标注要素类别。
2.如权利要求1所述的方法,其特征在于,得到所述词序列的方法为:对于待分词的文本,采用正向最大匹配和逆向最大匹配分别依次寻找匹配的最长词典词,如果该文本中存在没有被匹配上的单词,则将其作为单字词处理,直至该汉字序列处理完毕;对于正向最大匹配和逆向最大匹配不一致的单词作为有歧义的分词,采用有监督的序列标注的分词方法进行分词,得到所述词序列。
3.如权利要求1或2所述的方法,其特征在于,对于酒店地址对应的所述词序列中的每一个词,将该词与其前面的词进行合并形成新的词,并且对新合并的词添加后缀词合成标记,然后将该合并成的新词放入候选集中;然后对于该候选集中的每一个词,如果该词是地址词词库中的词,则将其类别标记为地址类型,否则继续判断该词是否有后缀词合成标记,如果是则标记为该后缀词对应的类型,否则将该词的类别标记为无类型;然后过滤掉含有非该酒店所在地区相关地址词的分词;然后通过分词规则模板库进行筛选,只保留分词规则模板库中包含的结构化形式的分词;对于酒店名称对应的所述词序列中的每一个词,将该词与其前面的词进行合并形成新的词,并且对新合并的词添加后缀词合成标记,然后将该合并成的新词放入候选集中;然后对于该候选集中的每一个词,如果该词是酒店名称词词库中的词,则将其类别标记为酒店名称类型,否则继续判断该词是否有后缀词合成标记,如果是则标记为该后缀词对应的类型,否则将该词的类别标记为无类型;然后过滤掉含有非该酒店名称分词的词;然后通过分词规则模板库进行筛选,只保留分词规则模板库中包含的结构化形式的分词。
4.如权利要求3所述的方法,其特征在于,生成所述分词规则模板库的方法为:首先对选取的样本文本进行规范化;然后对规范化后的结果进行分词并标记词类型,生成结构化文本;统计各结构化文本的频次,挑选频次高于设定阈值的结构化文本为分词规则模板,得到所述分词规则模板库。
5.如权利要求3所述的方法,其特征在于,生成所述后缀词词典的方法为:首先从批量的酒店数据样本中选取酒店名称的后若干个字,然后对剩余的文本进行全切分;统计词频次并挑选频次大于设定阈值的词;对挑选出的每一词,计算该词的左邻字的熵,将熵大于设定阈值的词作为所述后缀词词典的词。
6.如权利要求1或2所述的方法,其特征在于,所述酒店名称要素包括名称关键字、酒店类型、分店名称、原店名称;所述酒店地址要素包括省份、城市、区、乡镇、村、街、路巷、路号、段、POI。
7.如权利要求1或2所述的方法,其特征在于,使用决策树算法计算所述匹配度;所述决策树算法构建的树结构为二叉树或非二叉树,其中,每个非叶节点表示一个特征属性上的测试,连接非叶节点的分支代表该非叶节点对应的特征属性在该特征属性的值域上的输出,每个叶节点存放一个类别。
8.如权利要求7所述的方法,其特征在于,生成所述决策树的方法为:
81)从酒店的酒店信息中确定待匹配的特征;
82)对每种特征进行度量得到该特征的增益率;
83)选择增益率最大的特征进行分裂,形成该酒店的决策树。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710019378.XA CN106909611B (zh) | 2017-01-11 | 2017-01-11 | 一种基于文本信息抽取的酒店自动匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710019378.XA CN106909611B (zh) | 2017-01-11 | 2017-01-11 | 一种基于文本信息抽取的酒店自动匹配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106909611A true CN106909611A (zh) | 2017-06-30 |
CN106909611B CN106909611B (zh) | 2020-04-03 |
Family
ID=59207049
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710019378.XA Active CN106909611B (zh) | 2017-01-11 | 2017-01-11 | 一种基于文本信息抽取的酒店自动匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106909611B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344263A (zh) * | 2018-08-01 | 2019-02-15 | 昆明理工大学 | 一种地址匹配方法 |
CN109977951A (zh) * | 2019-03-22 | 2019-07-05 | 北京泰迪熊移动科技有限公司 | 一种用于识别服务门店名的方法、设备及存储介质 |
CN110826318A (zh) * | 2019-10-14 | 2020-02-21 | 浙江数链科技有限公司 | 物流信息识别的方法、设备、计算机设备和存储介质 |
CN110909532A (zh) * | 2019-10-31 | 2020-03-24 | 银联智惠信息服务(上海)有限公司 | 用户名称匹配方法、装置、计算机设备和存储介质 |
CN111104798A (zh) * | 2018-10-27 | 2020-05-05 | 北京智慧正安科技有限公司 | 法律文书中的量刑情节的解析方法、系统及计算机可读存储介质 |
CN111882379A (zh) * | 2020-06-29 | 2020-11-03 | 南京意博软件科技有限公司 | 一种基于邮件的订单确认方法和装置 |
CN112115214A (zh) * | 2019-06-20 | 2020-12-22 | 中科聚信信息技术(北京)有限公司 | 地址标准化方法、地址标准化装置和电子设备 |
CN112348583A (zh) * | 2020-11-04 | 2021-02-09 | 贝壳技术有限公司 | 用户偏好生成方法与生成系统 |
CN113628003A (zh) * | 2021-07-22 | 2021-11-09 | 上海泛宥信息科技有限公司 | 酒店匹配方法、系统、终端及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102402502A (zh) * | 2011-11-24 | 2012-04-04 | 北京趣拿信息技术有限公司 | 用于搜索引擎的分词处理方法和装置 |
CN103366160A (zh) * | 2013-06-28 | 2013-10-23 | 西安交通大学 | 融合肤色、人脸和敏感部位检测的不良图像判别方法 |
US20130325329A1 (en) * | 2012-05-31 | 2013-12-05 | Google Inc. | Geographic data update based on user input |
CN104034340A (zh) * | 2013-03-05 | 2014-09-10 | 泰为信息科技公司 | 具有反欺骗者机制的导航系统及其操作的方法 |
CN104751232A (zh) * | 2015-04-27 | 2015-07-01 | 携程计算机技术(上海)有限公司 | 酒店自动匹配方法 |
CN104820702A (zh) * | 2015-05-12 | 2015-08-05 | 中国地质大学(武汉) | 一种基于决策树的属性加权方法及文本分类方法 |
CN105975454A (zh) * | 2016-04-21 | 2016-09-28 | 广州精点计算机科技有限公司 | 一种网页文本的中文分词方法和装置 |
-
2017
- 2017-01-11 CN CN201710019378.XA patent/CN106909611B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102402502A (zh) * | 2011-11-24 | 2012-04-04 | 北京趣拿信息技术有限公司 | 用于搜索引擎的分词处理方法和装置 |
US20130325329A1 (en) * | 2012-05-31 | 2013-12-05 | Google Inc. | Geographic data update based on user input |
CN104034340A (zh) * | 2013-03-05 | 2014-09-10 | 泰为信息科技公司 | 具有反欺骗者机制的导航系统及其操作的方法 |
CN103366160A (zh) * | 2013-06-28 | 2013-10-23 | 西安交通大学 | 融合肤色、人脸和敏感部位检测的不良图像判别方法 |
CN104751232A (zh) * | 2015-04-27 | 2015-07-01 | 携程计算机技术(上海)有限公司 | 酒店自动匹配方法 |
CN104820702A (zh) * | 2015-05-12 | 2015-08-05 | 中国地质大学(武汉) | 一种基于决策树的属性加权方法及文本分类方法 |
CN105975454A (zh) * | 2016-04-21 | 2016-09-28 | 广州精点计算机科技有限公司 | 一种网页文本的中文分词方法和装置 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344263B (zh) * | 2018-08-01 | 2022-07-19 | 昆明理工大学 | 一种地址匹配方法 |
CN109344263A (zh) * | 2018-08-01 | 2019-02-15 | 昆明理工大学 | 一种地址匹配方法 |
CN111104798A (zh) * | 2018-10-27 | 2020-05-05 | 北京智慧正安科技有限公司 | 法律文书中的量刑情节的解析方法、系统及计算机可读存储介质 |
CN111104798B (zh) * | 2018-10-27 | 2023-04-21 | 北京智慧正安科技有限公司 | 法律文书中的量刑情节的解析方法、系统及计算机可读存储介质 |
CN109977951A (zh) * | 2019-03-22 | 2019-07-05 | 北京泰迪熊移动科技有限公司 | 一种用于识别服务门店名的方法、设备及存储介质 |
CN109977951B (zh) * | 2019-03-22 | 2021-10-15 | 北京泰迪熊移动科技有限公司 | 一种用于识别服务门店名的方法、设备及存储介质 |
CN112115214B (zh) * | 2019-06-20 | 2024-04-02 | 中科聚信信息技术(北京)有限公司 | 地址标准化方法、地址标准化装置和电子设备 |
CN112115214A (zh) * | 2019-06-20 | 2020-12-22 | 中科聚信信息技术(北京)有限公司 | 地址标准化方法、地址标准化装置和电子设备 |
CN110826318A (zh) * | 2019-10-14 | 2020-02-21 | 浙江数链科技有限公司 | 物流信息识别的方法、设备、计算机设备和存储介质 |
CN110909532A (zh) * | 2019-10-31 | 2020-03-24 | 银联智惠信息服务(上海)有限公司 | 用户名称匹配方法、装置、计算机设备和存储介质 |
CN111882379A (zh) * | 2020-06-29 | 2020-11-03 | 南京意博软件科技有限公司 | 一种基于邮件的订单确认方法和装置 |
CN112348583B (zh) * | 2020-11-04 | 2022-12-06 | 贝壳技术有限公司 | 用户偏好生成方法与生成系统 |
CN112348583A (zh) * | 2020-11-04 | 2021-02-09 | 贝壳技术有限公司 | 用户偏好生成方法与生成系统 |
CN113628003A (zh) * | 2021-07-22 | 2021-11-09 | 上海泛宥信息科技有限公司 | 酒店匹配方法、系统、终端及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN106909611B (zh) | 2020-04-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106909611A (zh) | 一种基于文本信息抽取的酒店自动匹配方法 | |
CN106777274B (zh) | 一种中文旅游领域知识图谱构建方法及系统 | |
CN110134757B (zh) | 一种基于多头注意力机制的事件论元角色抽取方法 | |
CN111444726B (zh) | 基于双向格子结构的长短时记忆网络的中文语义信息提取方法和装置 | |
CN110019839B (zh) | 基于神经网络和远程监督的医学知识图谱构建方法和系统 | |
CN111177326B (zh) | 基于精标注文本的关键信息抽取方法、装置及存储介质 | |
CN104391942B (zh) | 基于语义图谱的短文本特征扩展方法 | |
CN107729309A (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
CN111046670B (zh) | 基于毒品案件法律文书的实体及关系联合抽取方法 | |
CN107315738A (zh) | 一种文本信息的创新度评估方法 | |
CN106383816A (zh) | 基于深度学习的中文少数民族地区地名的识别方法 | |
CN106599032A (zh) | 一种结合稀疏编码和结构感知机的文本事件抽取方法 | |
CN110162591A (zh) | 一种面向数字教育资源的实体对齐方法及系统 | |
CN110851176B (zh) | 一种自动构造并利用伪克隆语料的克隆代码检测方法 | |
CN106528526A (zh) | 一种基于贝叶斯分词算法的中文地址语义标注方法 | |
CN109344263A (zh) | 一种地址匹配方法 | |
CN106886565A (zh) | 一种基础房型自动聚合方法 | |
CN112328800A (zh) | 自动生成编程规范问题答案的系统及方法 | |
CN112633431A (zh) | 一种基于crnn和ctc的藏汉双语场景文字识别方法 | |
CN109033132A (zh) | 利用知识图谱计算文本和主体相关度的方法以及装置 | |
CN111967267B (zh) | 一种基于XLNet的新闻文本地域提取的方法及系统 | |
CN108021715A (zh) | 基于语义结构特征分析的异构标签融合系统 | |
CN114298228A (zh) | 一种基于数据预处理的地址文本信息相关性学习方法 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN115600605A (zh) | 一种中文实体关系联合抽取方法、系统、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240115 Address after: 18th Floor, Jin'ao International Building, No. 17 Madian East Road, Haidian District, Beijing, 100080 Patentee after: Beijing Yishang Huiping Network Technology Co.,Ltd. Address before: 100088 18 / F, jin'ao international building, 17 Madian East Road, Haidian District, Beijing Patentee before: BEIJING JOINT WISDOM INFORMATION TECHNOLOGY CO.,LTD. |
|
TR01 | Transfer of patent right |