CN114298045A

CN114298045A - 游记数据自动提取的方法、电子设备和介质

Info

Publication number: CN114298045A
Application number: CN202111626090.1A
Authority: CN
Inventors: 刘桐桐; 陈剑明
Original assignee: Ctrip Travel Network Technology Shanghai Co Ltd
Current assignee: Ctrip Travel Network Technology Shanghai Co Ltd
Priority date: 2021-12-28
Filing date: 2021-12-28
Publication date: 2022-04-08

Abstract

本发明公开了一种游记数据自动提取的方法、电子设备及介质，其中游记数据自动提取的方法包括S100、对待处理文本进行分词和命名体识别，得到多个分词和多个命名体；S200、基于目的地字典表从多个分词中筛选出候选目的地，和，基于语料库从多个命名体中筛选出候选目的地；S300、若所述候选目的地的数量大于预设值，对所有候选目的地进行聚类，得到多个聚类簇；S400、将聚类元素最多的聚类簇对应的候选目的地作为最终的目的地。本发明通过游记数据自动提取的方法，实现了对用户游记中提到的目的地和POI精准识别，提高游记关键词的识别精确性。

Description

游记数据自动提取的方法、电子设备和介质

技术领域

本发明涉及自然语言处理领域，尤其涉及一种游记数据自动提取的方法、电子设备和介质。

背景技术

近些年来在行业发展的过程中，积累了一批由用户输出的优秀的UGC(User-generated Content，用户生产内容)游记、旅拍、点评等文本数据，这些数据多为非结构化的数据，如果不对其进行结构化处理提取关键信息点，就难以将其应用于多个复杂的文本提取POI(Point of Interest，兴趣点)类的后续场景，如旅拍笔记详情页挖掘和展示关键词、游记自动挂货、POI信息链接展示、增强SEO(Search Engine Optimization，搜索引擎优化)辅助、辅助人工审核、行程自动生成等。

通过自动提取UGC数据中涉及到的主目的地和POI，自动纠错模糊匹配识别，并自动链接到知识库中，显得十分必要。首先，如果不具有丰富的行业知识，对目的地、POI的名称了如指掌，就难以分辨出游记中提及的目的地和POI信息。其次，游记类文本中提及的目的地和POI丰富多样，数量众多，如果通过人工操作的方式提取目的地和POI，需要耗费巨大的人力物力时间财力，且对于数据库中数量众多的POI难以迅速准确的分辨清楚和所提取目的地和POI之间的关系，而且由于人工审核方式固有的特性，可能会因为疲劳或者粗心等情况，漏掉需要提取的信息，或者出错。

发明内容

本发明要解决的技术问题是为了克服现有技术中的人工操作提取目的地和POI的精确性有待提高的缺陷，提供一种游记数据自动提取的方法、电子设备和介质。

本发明是通过下述技术方案来解决上述技术问题：

一种游记数据自动提取的方法，所述方法包括以下步骤：

S100、对待处理文本进行分词和命名体识别，得到多个分词和多个命名体；

S200、基于目的地字典表从所述多个分词中筛选出候选目的地，和，基于语料库从所述多个命名体中筛选出候选目的地；

S300、若所述候选目的地的数量大于预设值，对所有所述候选目的地进行聚类，得到多个聚类簇；

S400、将聚类元素最多的聚类簇对应的候选目的地作为最终的目的地。

较佳地，步骤S300中，基于K-means聚类算法进行聚类。

较佳地，步骤S200之前还包括：

S101、根据常用中文停用词生成中文停用词字典，根据所述中文停用词字典对所述多个分词进行过滤处理。

较佳地，步骤S100具体包括：

基于马尔科夫链的Jieba工具包对所述待处理文本进行分词和命名体识别，得到多个分词和多个命名体。

较佳地，步骤S100还包括：

对所述多个分词进行词性标注；

步骤S200具体包括：

S201、基于所述目的地字典表从词性标注为名词的分词中筛选出所述候选目的地。

较佳地，所述游记数据自动提取的方法还包括：

S500、构建POI字典表，所述POI字典表包括目的地字典表中的目的地目录下的所有POI；

S600、基于所述POI字典表从所述多个分词和所述多个命名体中匹配出候选POI。

较佳地，所述POI包括多个POI实体，POI实体包括名称、别名、英文名、坐标、类型、所在目的地、目的地路径、质量分；

步骤S600具体包括：

若多个所述候选POI对应同一个POI实体，则保留名称最长的所述POI实体。

较佳地，步骤S600具体包括：

基于所述POI字典表从所述多个分词和所述多个命名体中匹配出含有POI的分词和含有POI的命名体，根据所述POI的坐标和所述目的地的坐标匹配出所述候选POI。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明的游记数据自动提取的方法。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现本发明的游记数据自动提取的方法的步骤。

本发明的积极进步效果在于：通过自动提取UGC游记文本数据中涉及的多个目的地和POI，自动纠错模糊匹配识别，过滤掉干扰信息，提高游记文本关键词的识别精确性；所提取的数据后续可以应用于旅拍笔记的详情页挖掘和展示关键词、游记自动挂货、POI信息链接展示、增强SEO辅助、辅助人工审核、行程自动生成。

附图说明

图1为本发明的实施例1的游记数据自动提取的方法的流程示意图。

图2为本发明的实施例1游记数据自动提取的方法的优选方案的流程示意图。

图3为本发明的实施例2的电子设备的模块示意图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。

实施例1

本实施例提供一种游记数据自动提取的方法，如图1所示，数据自动提取方法包括：

具体地，此处采用基于马尔科夫链的Jieba工具包，对游记数据进行分词和命名体识别。Jieba工具包通过前缀字典可以实现高效词图扫描，生成输入文本中所有汉字可能的成词情况构成的有向无环图。采用动态规划算法对最大概率词语路径进行查找，寻找出基于词频的最大切分组合。在分词前还可以对游记文本进行预处理和数据清洗例如通过正则表达式匹配非中文、大小写、数字以外的其他字符，并替换为空格；通过正则表达式匹配各式括号，进行删除；通过匹配特殊字符字典、标点符号字典，对其进行删除；通过全角半角对照字典，将全角字符替换为半角；通过匹配英文字母字典，标志字符；通过匹配数字字典，替换为中文字符。

S200、基于目的地字典表从所述多个分词中筛选出候选目的地；目的地字典表里包含了目的地Id、目的地名称、目的地类型、目的地坐标、目的地所对应的城市级别；

S300、若所述候选目的地的数量大于预设值，对所有候选目的地进行聚类，得到多个聚类簇；

S400、将与聚类元素最多的聚类簇对应的候选目的地作为最终的目的地；过滤掉聚类元素少的簇对应的目的地。最终目的地的确定还可以根据候选目的地与用户挂载目的地的距离是否大于预设距离得出。通过最终确定的目的地，后续可以应用于旅拍笔记的详情页挖掘和展示关键词、游记自动挂货、POI信息链接展示、增强SEO辅助、辅助人工审核、行程自动生成等。

S500、构建POI字典表，POI字典表包括目的地字典表中的目的地目录下的所有POI；

POI包括多个POI实体，POI实体包括名称、别名、英文名、坐标、类型、所在目的地、目的地路径、质量分；根据POI实体以POI名字为Key，相关信息为Value。

S600、基于POI字典表从游记文本的多个分词和多个命名体中匹配出候选POI；

步骤S600具体包括：基于POI字典表从多个分词和多个命名体中匹配出含有POI的分词和命名体，根据POI的坐标和所述目的地的坐标匹配出候选POI；具体地，每个分词结果和POI字典中的Key，两两之间计算编辑距离、Jaccard距离、相同字数的正向比例、相同字数的负向比例、最长公共子串；根据内容非独立特征，设定阈值进行过滤，得到每个分词结果对应的候选实体集合；不能进入阈值范围的全部进行未知实体拒绝；确定候选集中，根据最长公共子串的值召回一批分词结果，舍弃其他的；利用内容独立的特征POI质量分和POI类型，对所有候选结果进行排序，选择POI质量分最高的分词结果所对应的POI实体；根据POI的坐标和所述目的地的坐标匹配出候选POI。若多个候选POI、对应同一个POI实体，则保留名称最长的POI实体。另外，计算文中出现括号的位置，并且括号内文本长度小于阈值的括号，若匹配到的POI处于这些括号位置覆盖中，则舍弃该POI。

另外，本实施例还提供一种优选的方案，如图2所示在步骤S200之前还包括：

S101、根据常用中文停用词生成中文停用词字典，根据中文停用词字典、通用词类型、常见场景地区字典，对分词进行过滤。

如图2所示，本实施例提供的优选方案在本实施例所说的游记数据自动提取的方法基础上，步骤S100还包括：

对多个分词进行词性标注；

步骤S200具体包括：

S201、基于目的地字典表从词性标注为名词的分词中筛选出候选目的地。

通过本实施例所提供的游记数据自动提取的方法，可以实现对游记文本中提到的目的地和POI精准识别和筛选，保留游记中的主要目的地和POI，过滤掉干扰信息，所提取的目的地和POI信息可以应用在旅拍的辅助人工审核和前端展示、大搜关键词引流场景中，提升了关键词综合准确率、覆盖率，便于UGC内容的分发，能够加大的降低审核人员的工作难度和耗时，进一步的能节省运营主体的运营成本。

实施例2

本实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现实施例1中所述的游记数据自动提取的方法。

图3为本实施例提供的一种电子设备的结构示意图。图3示出了适于用来实现本发明实施方式的示例性电子设备90的框图。图3显示的电子设备90仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图3所示，电子设备90可以以通用计算设备的形式表现，例如其可以为服务器设备。电子设备90的组件可以包括但不限于：至少一个处理器91、至少一个存储器92、连接不同系统组件(包括存储器92和处理器91)的总线93。

总线93包括数据总线、地址总线和控制总线。

存储器92可以包括易失性存储器，例如随机存取存储器(RAM)921和/或高速缓存存储器922，还可以进一步包括只读存储器(ROM)923。

存储器92还可以包括具有一组(至少一个)程序模块924的程序工具925，这样的程序模块924包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

处理器91通过运行存储在存储器92中的计算机程序，从而执行各种功能应用以及数据处理。

电子设备90也可以与一个或多个外部设备94(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口95进行。并且，电子设备90还可以通过网络适配器96与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器96通过总线93与电子设备90的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备90使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

实施例3

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现实施例1中所述的游记数据自动提取的方法的步骤。

其中，可读存储介质可以采用的更具体可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中，本发明还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行实现实施例1中所述的游记数据自动提取的方法的步骤。

其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码，所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

Claims

1.一种游记数据自动提取的方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1中所述的游记数据自动提取的方法，其特征在于，步骤S300中，基于K-means聚类算法进行聚类。

3.根据权利要求1中所述的游记数据自动提取的方法，其特征在于，步骤S200之前还包括：

4.根据权利要求1中所述的游记数据自动提取的方法，其特征在于，步骤S100具体包括：

5.根据权利要求1中所述的游记数据自动提取的方法，其特征在于，步骤S100还包括：

对所述多个分词进行词性标注；

步骤S200具体包括：

6.根据权利要求1中所述的游记数据自动提取的方法，其特征在于，所述游记数据自动提取的方法还包括：

7.根据权利要求6中所述的游记数据自动提取的方法，其特征在于，所述POI包括多个POI实体，POI实体包括名称、别名、英文名、坐标、类型、所在目的地、目的地路径、质量分；

步骤S600具体包括：

8.根据权利要求6所述的游记数据自动提取的方法，其特征在于，步骤S600具体包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8任一项所述的游记数据自动提取的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8任一项所述的游记数据自动提取的方法。