CN106909611A

CN106909611A - 一种基于文本信息抽取的酒店自动匹配方法

Info

Publication number: CN106909611A
Application number: CN201710019378.XA
Authority: CN
Inventors: 张猛; 杨洪伟; 林小俊; 陈文哲
Original assignee: Beijing Zhong Hui Information Technology Ltd By Share Ltd
Current assignee: Beijing Yishang Huiping Network Technology Co ltd
Priority date: 2017-01-11
Filing date: 2017-01-11
Publication date: 2017-06-30
Anticipated expiration: 2037-01-11
Also published as: CN106909611B

Abstract

本发明公开了一种基于文本信息抽取的酒店自动匹配方法。本方法为：1)对目标酒店的酒店信息进行要素提取，对待匹配酒店的酒店信息进行要素提取；2)根据步骤1)提取的要素，采用决策树算法计算目标酒店与该待匹配酒店之间的匹配度；其中，对于酒店信息中的酒店名称、酒店地址进行要素抽取的方法为：11)对汉字序列进行规范化处理；其中，汉字序列为酒店名称或酒店地址；12)对规范化后的文本进行分词，得到一词序列；13)从所述词序列中进行要素抽取，并标注要素类别。本发明提高了匹配的鲁棒性，避免无用信息对匹配过程中的干扰。

Description

一种基于文本信息抽取的酒店自动匹配方法

技术领域

本发明属于信息技术领域，涉及在线旅游网站、比价平台、酒店信息聚合、爬虫链接的自动获取等技术领域，特别是涉及一种基于文本信息抽取的酒店自动匹配方法。

背景技术

随着在线旅游网站的飞速发展，酒店在线预定平台云集，多个平台推出了价格对比功能。要进行价格对比首先要确定不同平台酒店的匹配关系，为了降低人工匹配成本，大多釆用自动匹配的方法，但传统的釆用字符串的匹配方法有以下不足：

●模糊匹配准确率难以控制；

●酒店名称的表述方式不同，导致的无法匹配；

●地址信息的表述方式不同，导致的无法匹配；

●酒店城市表述粒度不同，导致的无法匹配；

●酒店电话的表述方式不同，导致的无法匹配。

发明内容

针对上述问题，本发明的目的在于提供一种基于文本信息抽取的酒店自动匹配方法。

本发明充分利用文本信息，从文本中抽取出酒店的关键要素，提高了匹配的鲁棒性，避免无用信息对匹配过程中的干扰。酒店匹配的依据有：

1.酒店名称；

2.酒店地址；

3.酒店所在城市；

4.酒店经纬度；

5.酒店电话。

本发明的酒店自动匹配方法分为两大阶段：

1、酒店的要素抽取。该阶段我们从酒店的信息中，抽取出关键的要素。酒店信息包括酒店名称、酒店地址、酒店电话。要素是指更细粒度的酒店特征，例如酒店名称关键字，分店名称，酒店所在街道，酒店电话区号等等。该阶段更具体的步骤如下：

a)文本规范化。该步骤包括统一中文标点，统一英文大小写，统一全角半角字符，滤除html等无用的信息。

b)对文本进行分词。该步骤先根据词典和统计的方法进行初步切分，之后通过后缀词和模板进一步分词得到最终的分词结果。

c)抽取要素信息。该步骤根据匹配的模板确定要素位置，并将其内容抽取出来。

2、计算匹配度。匹配度是指两家酒店匹配关系的概率。该阶段我们使用第一阶段抽取的酒店要素，通过使用决策树算法计算它们的匹配度。

本发明的技术方案为：

一种基于文本信息抽取的酒店自动匹配方法，其步骤为：

1)对目标酒店的酒店信息进行要素提取，对待匹配酒店的酒店信息进行要素提取；

2)根据步骤1)提取的要素，采用决策树算法计算目标酒店与该待匹配酒店之间的匹配度；

其中，对于酒店信息中的酒店名称、酒店地址进行要素抽取的方法为：

11)对汉字序列进行规范化处理；其中，汉字序列为酒店名称或酒店地址；

12)对规范化后的文本进行分词，得到一词序列；

13)从所述词序列中进行要素抽取，并标注要素类别。

进一步的，得到所述词序列的方法为：对于待分词的文本，采用正向最大匹配和逆向最大匹配分别依次寻找匹配的最长词典词，如果该文本中存在没有被匹配上的单词，则将其作为单字词处理，直至该汉字序列处理完毕；对于正向最大匹配和逆向最大匹配不一致的单词作为有歧义的分词，采用有监督的序列标注的分词方法进行分词，得到所述词序列。

进一步的，对于酒店地址对应的所述词序列中的每一个词，将该词与其前面的词进行合并形成新的词，并且对新合并的词添加后缀词合成标记，然后将该合并成的新词放入候选集中；然后对于该候选集中的每一个词，如果该词是地址词词库中的词，则将其类别标记为地址类型，否则继续判断该词是否有后缀词合成标记，如果是则标记为该后缀词对应的类型，否则将该词的类别标记为无类型；然后过滤掉含有非该酒店所在地区相关地址词的分词；然后通过分词规则模板库进行筛选，只保留分词规则模板库中包含的结构化形式的分词；对于酒店名称对应的所述词序列中的每一个词，将该词与其前面的词进行合并形成新的词，并且对新合并的词添加后缀词合成标记，然后将该合并成的新词放入候选集中；然后对于该候选集中的每一个词，如果该词是酒店名称词词库中的词，则将其类别标记为酒店名称类型，否则继续判断该词是否有后缀词合成标记，如果是则标记为该后缀词对应的类型，否则将该词的类别标记为无类型；然后过滤掉含有非该酒店名称分词的词；然后通过分词规则模板库进行筛选，只保留分词规则模板库中包含的结构化形式的分词。

进一步的，生成所述分词规则模板库的方法为：首先对选取的样本文本进行规范化；然后对规范化后的结果进行分词并标记词类型，生成结构化文本；统计各结构化文本的频次，挑选频次高于设定阈值的结构化文本为分词规则模板，得到所述分词规则模板库。

进一步的，生成所述后缀词词典的方法为：首先从批量的酒店数据样本中选取酒店名称的后若干个字，然后对剩余的文本进行全切分；统计词频次并挑选频次大于设定阈值的词；对挑选出的每一词，计算该词的左邻字的熵，将熵大于设定阈值的词作为所述后缀词词典的词。

进一步的，所述酒店名称要素包括名称关键字、酒店类型、分店名称、原店名称；所述酒店地址要素包括省份、城市、区、乡镇、村、街、路巷、路号、段、POI。

进一步的，使用决策树算法计算所述匹配度；所述决策树算法构建的树结构为二叉树或非二叉树，其中，每个非叶节点表示一个特征属性上的测试，连接非叶节点的分支代表该非叶节点对应的特征属性在该特征属性的值域上的输出，每个叶节点存放一个类别。

进一步的，生成所述决策树的方法为：

81)从酒店的酒店信息中确定待匹配的特征；

82)对每种特征进行度量得到该特征的增益率；

83)选择增益率最大的特征进行分裂，形成该酒店的决策树。

与现有技术相比，本发明的积极效果为：

本发明在只提供酒店名称、地址和城市的前提下，相较于传统的全字符串匹配的方式，召回率提升了30％。

附图说明

图1为本发明的方法流程图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。

因为酒店名称和酒店地址的处理方式基本相同，因此将其放在一起进行说明，以下步骤中的1-3即为酒店名称和酒店地址的通用处理方法。具体实施时可以先对酒店名称进行步骤1-3的处理，再对酒店地址进行1-3的处理，最后是步骤4。

步骤1文本规范化

文本规范化的意义有两个，一是将拥有相同意义的不同文本转换成统一格式，二是将文本中无意义并且干扰后续处理的内容进行删除。规范化的处理给后续的分析减轻了负担。具体的规范化的内容有：

1.统一中英文标点。

2.统一全角半角字符。

3.去除掉括号内容中含有非“原酒店”信息或“分店”信息的内容。

4.繁体转简体。

5.中文数字转换成普通数字。

步骤2文本分词

该步骤在上述规范化后的结果上对酒店名称或酒店地址进行分词。中文分词是中文自然语言处理的基础步骤。因为酒店名称是开放集合很难整理全，通过词表的分词方法是无法正确的进行分词的。为了解决这一问题，我们先釆用基于词库的方式对其进行粗分词，然后再基于后缀词进行再分词。酒店地址文本中的街道名称和POI也都是开放集合，因此酒店地址分词方法与酒店名称基本相同。具体步骤分为如下两个阶段：

阶段1，首先采用基于词典的最大匹配分词方法，针对分词有歧义的部分再采用序列标注的分词方法，这样就可能得到粗分词结果。

基于词典的最大匹配分词方法，给定词典，对于待分词的汉字序列即酒店名称或地址，依次寻找匹配的最长词典词，无匹配者则作为单字词处理，直至该汉字序列处理完毕。按照对汉字序列扫描方向的不同，该方法又可以分为：正向最大匹配(从左向右匹配)和逆向最大匹配(从右向左匹配)。例如，对于序列“当原子结合成分子时”，正向最大匹配结果为“当|原子|结合|成|分子|时”，而逆向最大匹配结果为“当|原子|结合|成分|子时”。经过最大匹配分词方法的处理可得到酒店的名称或地址的正向最大匹配和逆向最大匹配的两种分词结果。

显然，正向最大匹配和逆向最大匹配都不能很好地处理切分歧义问题。正向最大匹配和逆向最大匹配也可以结合形成双向最大匹配，双向匹配时正向和逆向匹配不一致的地方，往往是潜在歧义的地方。有歧义往往需要根据具体上下文确认分词结果。有监督的序列标注方法能够充分的挖掘上下文的丰富特征，因此有歧义的情况下本发明引入序列标注方法消除歧义。该方法将词的切分问题转换为字的分类问题，每个字根据其在词中的不同位置，赋予不同的位置类别标记，比如词首、词中、词尾和单字词。基于这样的标记序列，很容易确定句子的切分方式。其中，B(Begin)、M(Middle)、E(End)、S(Single)分别表示词首、词中、词尾、单字词。有了字的标记序列，符合正则表达式“S”或“B(M)*E”的字序列表示一个词，从而很容易地完成句子切分。为了实现序列标注任务，本发明采用条件随机场模型(Conditional Random Fields,CRF)，该模型在自然语言处理中得到广泛应用，并取得了很大成功。具体特征包括：前一个字、当前字、后一个字、前一个字与当前字、当前字与后一个字，以及基于这些一元特征的二元特征。条件随机场模型利用提取的这些特征，预测出的每个字的类别标记。

最大匹配方法的词典以及有监督的条件随机场模型的训练学习语料都来自本发明人工标注的1万家酒店数据。

阶段2，具体过程如下：

2.通过地址词词库和后缀词词典对上一步得到的分词方案集合中所有分词方案自动标记词类型。标记类型的时候，对于每一个词，先判断是否为地址词词库中的词。如果是地址词则标记类型为“LOCATION”即地址类型，否则继续通过该词是否有“后缀词合成”标记，判断是否为由后缀词组成的词，如果是则标记为该后缀词对应的类型(后缀词的类型来自事先人工标注)，否则标记类型为“X”即无类型。酒店名称包含类型包括位置，酒店类型等，酒店地址包含的类型有省份，城市，街道等。还是以上一个步骤例子进行说明，“北京|首都机场宾馆”，标记类型后为“LOCATION|HOTEL”；“北京|首都|机场宾馆”，标记类型后为“LOCATION|X|HOTEL”。

3.过滤含有非该酒店所在地区相关地址词的候选分词方案，例如“北京内蒙古宾馆”所在城市为“北京”，但“内蒙古”会被错误的标记为“LOCATION”，因为“北京”与“内蒙古”并无关，因此重新将“内蒙古”标记为“X”即无类型。

4.然后通过分词规则模板库进行筛选，只保留规则库中包含的结构化形式的分词。

5.在剩余的候选分词方案中挑选出分词数量最多的候选分词。例如“北京|首都机场宾馆”对应的“LOCATION|HOTEL”与“北京首都机场宾馆”对应的“HOTEL”同时满足规则，显然“北京|首都机场宾馆”是更好的分词结果。

下面通过实例作进一步说明，

从上面的步骤可以看出，词典和分词规则的整理是分词过程的关键，决定了分词结果的好坏，下面分别给出词典和分词规则模板库的生成方法。

分词规则模板库生成的具体步骤如下：

1.选取大量样本文本，并对每个样本文本进行如下处理。

2.对文本进行规范化。

3.对规范化后的结果进行基本分词。

4.标记词类型，生成结构化文本也就是模板。

5.统计结构化文本的频次，挑选频次较高的模板。

6.在以上结果的基础上进行人工筛选。

为了进一步说明分词规则模板库生成过程，以“北京如家快捷酒店(德胜门安德路店)”为实例，详细过程：

1.规范化：北京如家快捷酒店(德胜门安德路店)

2.基本分词：北京|如家|快捷酒店|德胜门安德路|店

3.生成结构化文本：LOCATION X SUFFIX X BRANCH

因为一些词是有歧义的，过程也会产生一些有问题的模板，例如“老北京彩虹度假客栈”正常的分词结果为“老|北京|彩虹|度假客栈”，对应的模板为“X LOCATION X HOTEL”并不是正确的分词模板规则，因此先通过频次进行过滤，再人工进行筛选以保证模板规则的准确性。

后缀词词典的生成的具体步骤(以酒店类型后缀词为例)：

1.从批量的酒店数据样本中选取酒店名称的后5个字。

2.对剩余的文本进行全切分。例如，“如家酒店”，全切分后可得到4个词“店”，“酒店”，“家酒店”，“如家酒店”。

3.统计词频次并挑选频次较高的词。

4.对词频较高的词计算左邻字的熵，进行一步挑选熵较高的词。“熵”反应了该词的左邻字的丰富度，而丰富度越高越能是一个正确的词。

5.在以上结果的基础上进行人工筛选，最后的结果即为后缀词词典。

步骤3要素抽取

要素抽取是将文本中的要素识别出来，并标记上其相应的类别标签。

酒店名称的要素包括名称关键字、酒店类型、分店名称、原店名称。以“7天连锁酒店(东莞东城万达广场主山店原东城政府店)”为例，名称关键字为“7天”，酒店类型“连锁酒店”，分店名称为“东城万达广场主山店”，原店为“东城政府店”。酒店地址要素包括省份、城市、区、乡镇、村、街、路巷、路号、段、POI等。以“兰州市城关区酒泉路街道硷滩巷21-22号(城关交警大队附近)”为例，城市为“兰州市”，区为“城关区”，街为“酒泉路街道”，巷为“硷滩巷”，路号为“21-22”，POI为“城关交警大队”。

步骤4匹配度计算

将待匹配的两家酒店分别进行以上步骤的处理后，就可以进行匹配度的计算了。

匹配度是指两家酒店是多大的概率是匹配关系。此类问题可以转换成二两类问题。匹配度的计算使用决策树算法。决策树(decision tree)是一个树结构(可以是二叉树或非二叉树)。其每个“非叶”节点表示一个特征属性上的测试，每个分支代表这个特征属性在某个值域上的输出，例如“酒店名称是否一致”这个特征的值域为[-1(不一致)，0(缺省)，1(一致)]；而每个叶节点存放一个类别(即匹配或不匹配)。

具体步骤如下：

步骤11)根据业务知识确定特征，具体特征如下：

1、“酒店名称是否一致”取值-1(不一致)，0(缺省)，1(一致)；

2、“酒店地址是否一致”取值-1(不一致)，0(缺省)，1(一致)；

3、“酒店名称关键字是否一致”取值-1(不一致)，0(缺省)，1(一致)；

4、“酒店名称后缀是否一致”取值-1(不一致)，0(缺省)，1(一致)；

5、“酒店分店信息是否一致”取值-1(不一致)，0(缺省)，1(一致)；

6、“酒店原店信息是否一致”取值-1(不一致)，0(缺省)，1(一致)；

7、“酒店所在城市是否一致”取值-1(不一致)，0(缺省)，1(一致)；

8、“酒店所在街路是否一致”取值-1(不一致)，0(缺省)，1(一致)；

9、“POI是否一致”取值-1(不一致)，0(缺省)，1(一致)；

10、“酒店所在路号是否一致”取值-1(不一致)，0(缺省)，1(一致)；

11、“酒店电话是否一致”取值-1(不一致)，0(缺省)，1(一致)；

12、“酒店距离”取值为“500米内”，“1公里内”，“2公里内”，“4公里内”，“8公里内”，“10公里内”,“10公里以上”。

步骤12)分裂属性度量标准

在这里使用ID3算法进行度量。根据信息论，期望信息越小，信息增益越大，从而纯度越高。所以ID3算法的核心思想就是以信息增益度量属性选择，选择分裂后信息增益最大的属性进行分裂。下面先定义几个要用到的概念。

设D为用类别对训练元组进行的划分，则D的熵(entropy)表示为：

其中m表示类别数量，pi表示第i个类别在整个训练元组中出现的概率，可以用属于此类别元素的数量除以训练元组元素总数量作为估计。熵的实际意义表示是D中元组的类标号所需要的平均信息量。

将训练元组D按属性A进行划分，则A对D划分的期望信息为：

其中v表示属性A所有可能集合的数量，Dj是D中属性A的值为第j个可能的子集。

而信息增益即为两者的差值：

gain(A)＝in fo(D)-in fo_A(D)

步骤13)树的生成

计算每个属性的增益率，然后选择增益率最大的属性进行分裂。最后形成树形结构。

决策树的训练学习语料都来自本发明人工标注的1万家酒店数据。

决策树生成之后就可应用到具体的酒店匹配度计算中了，具体计算步骤如下：

1.通过两家酒店抽取出的要素生成决策树的特征。“酒店名称是否一致”等特征的计算方式较简单，通过比较两家酒店的相应要素的字符串即可，如果相同则值为1，不同为-1，如果双方至少有一家酒店的要素缺失，则值为0。“酒店距离”的计算方式有些不同，“酒店距离”通过酒店的经纬度信息，使用Haversine公式进行计算，计算公式如下：

其中d表示两家酒店距离，r表示地球半径值为6367000，与λ1是与λ2分别是要匹配的两家酒店的纬度和经度。d的单位是米，根据d的值就可以确定“酒店距离”特征的值。例如d<500，“酒店距离”的值为“500米内”；d<1000，值为“1公里内”。

2.通过生成的特征，使用决策树进行匹配度计算。使用决策树进行决策的过程就是从根节点开始，测试待分类项中相应的特征属性，并按照其值选择输出分支，直到到达叶子节点，将叶子节点存放的类别作为决策结果。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这些仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种基于文本信息抽取的酒店自动匹配方法，其步骤为：

12)对规范化后的文本进行分词，得到一词序列；

13)从所述词序列中进行要素抽取，并标注要素类别。

2.如权利要求1所述的方法，其特征在于，得到所述词序列的方法为：对于待分词的文本，采用正向最大匹配和逆向最大匹配分别依次寻找匹配的最长词典词，如果该文本中存在没有被匹配上的单词，则将其作为单字词处理，直至该汉字序列处理完毕；对于正向最大匹配和逆向最大匹配不一致的单词作为有歧义的分词，采用有监督的序列标注的分词方法进行分词，得到所述词序列。

3.如权利要求1或2所述的方法，其特征在于，对于酒店地址对应的所述词序列中的每一个词，将该词与其前面的词进行合并形成新的词，并且对新合并的词添加后缀词合成标记，然后将该合并成的新词放入候选集中；然后对于该候选集中的每一个词，如果该词是地址词词库中的词，则将其类别标记为地址类型，否则继续判断该词是否有后缀词合成标记，如果是则标记为该后缀词对应的类型，否则将该词的类别标记为无类型；然后过滤掉含有非该酒店所在地区相关地址词的分词；然后通过分词规则模板库进行筛选，只保留分词规则模板库中包含的结构化形式的分词；对于酒店名称对应的所述词序列中的每一个词，将该词与其前面的词进行合并形成新的词，并且对新合并的词添加后缀词合成标记，然后将该合并成的新词放入候选集中；然后对于该候选集中的每一个词，如果该词是酒店名称词词库中的词，则将其类别标记为酒店名称类型，否则继续判断该词是否有后缀词合成标记，如果是则标记为该后缀词对应的类型，否则将该词的类别标记为无类型；然后过滤掉含有非该酒店名称分词的词；然后通过分词规则模板库进行筛选，只保留分词规则模板库中包含的结构化形式的分词。

4.如权利要求3所述的方法，其特征在于，生成所述分词规则模板库的方法为：首先对选取的样本文本进行规范化；然后对规范化后的结果进行分词并标记词类型，生成结构化文本；统计各结构化文本的频次，挑选频次高于设定阈值的结构化文本为分词规则模板，得到所述分词规则模板库。

5.如权利要求3所述的方法，其特征在于，生成所述后缀词词典的方法为：首先从批量的酒店数据样本中选取酒店名称的后若干个字，然后对剩余的文本进行全切分；统计词频次并挑选频次大于设定阈值的词；对挑选出的每一词，计算该词的左邻字的熵，将熵大于设定阈值的词作为所述后缀词词典的词。

6.如权利要求1或2所述的方法，其特征在于，所述酒店名称要素包括名称关键字、酒店类型、分店名称、原店名称；所述酒店地址要素包括省份、城市、区、乡镇、村、街、路巷、路号、段、POI。

7.如权利要求1或2所述的方法，其特征在于，使用决策树算法计算所述匹配度；所述决策树算法构建的树结构为二叉树或非二叉树，其中，每个非叶节点表示一个特征属性上的测试，连接非叶节点的分支代表该非叶节点对应的特征属性在该特征属性的值域上的输出，每个叶节点存放一个类别。

8.如权利要求7所述的方法，其特征在于，生成所述决策树的方法为：

81)从酒店的酒店信息中确定待匹配的特征；

82)对每种特征进行度量得到该特征的增益率；

83)选择增益率最大的特征进行分裂，形成该酒店的决策树。