CN110738054B - 识别邮件中酒店信息的方法、系统、电子设备及存储介质 - Google Patents
识别邮件中酒店信息的方法、系统、电子设备及存储介质 Download PDFInfo
- Publication number
- CN110738054B CN110738054B CN201910971189.1A CN201910971189A CN110738054B CN 110738054 B CN110738054 B CN 110738054B CN 201910971189 A CN201910971189 A CN 201910971189A CN 110738054 B CN110738054 B CN 110738054B
- Authority
- CN
- China
- Prior art keywords
- entity
- target
- name
- module
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明公开了一种识别邮件中酒店信息的方法、系统、电子设备及存储介质,方法包括:将待识别邮件输入至实体识别模型中以得到目标实体信息;实体识别模型通过下述步骤构建:根据现有的实体信息构建实体trie树;将历史邮件输入至实体trie树中;标记出trie树中的目标实体信息;将训练集中的初始实体信息和标记出的目标实体信息对语义识别模型进行训练;将预测集中的初始实体信息输入至训练后语义识别模型中;计算评估概率;判断评估概率是否大于评估阈值,若是,则训练后语义识别模型为实体识别模型。本发明不但可以提高酒店信息识别的准确性、也减轻了OTA维护人工成本,也进一步可以对OTA英文房态更新邮件自动化阅览和分析管理。
Description
技术领域
本发明涉及OTA(在线旅游代理)酒店计算机信息处理技术,特别涉及一种识别邮件中酒店信息的方法、系统、电子设备及存储介质。
背景技术
对于OTA行业,在海外酒店的房型数量关闭的维护操作上,海外酒店通过发送一封邮件,让OTA部门进行该酒店的房型数量关闭的维护操作,目前现有方法是通过人工阅览海外房态更新邮件,然后在OTA系统中更新维护。
目前对于邮件中的英文提取实体技术,比较成熟的以HMM(隐马尔科夫模型)、CRF(调剂随机场模型)、LSTM-CRF(一种文本序列标注模型)为代表的自然语言处理技术:
以HMM为代表的命名实体识别技术,需要满足严格的独立性假设条件,无法容纳比较充足的上下文信息,因为存在观察状态和隐藏状态等之间的假设性理论,在标注数据的基础上,存在标注偏置问题;
以CRF为代表的实体识别方法,没有HMM那种严格的独立性假设,但是需要灵活设计特征模板,算法复杂度较高,训练代价大。
以LSTM-CRF为代表的深度学习技术,考虑了位置关系的实体开始和结束关联,不需要设计特征,可以使用训练好的字或词的表征学习特征,但是没有考虑到人工标注样本的代价。
发明内容
本发明要解决的技术问题是为了克服现有技术中对海外邮件中实体信息识别不准确、效率低、难以统一进行管理的缺陷,提供一种准确、高效并且方便进行统一管理与维护的识别邮件中酒店信息的方法、系统、电子设备及存储介质。
本发明是通过下述技术方案来解决上述技术问题:
本发明提供了一种识别邮件中酒店信息的方法,包括:
将待识别邮件输入至实体识别模型中以得到目标实体信息;
所述实体识别模型通过下述步骤构建:
根据现有的实体信息构建实体trie树;
将历史邮件输入至所述实体trie树中,以识别每一所述历史邮件中存在的初始实体信息;
标记出所述实体trie树中与所述初始实体信息相对应的目标实体信息;
将训练集中的初始实体信息和标记出的目标实体信息分别作为输入值及输出值对语义识别模型进行训练;
将预测集中的初始实体信息输入至训练后的语义识别模型中以得到预测实体信息;
根据所述预测实体信息与所述预测集中标记出的目标实体信息计算评估概率;
判断所述评估概率是否大于评估阈值,若是,则所述训练后的语义识别模型为所述实体识别模型;
所述目标实体信息包括目标酒店名称,所述初始实体信息包括初始酒店名称。
本发明通过构建tire树以识别邮件中的实体名称,从而可以避免人工标注的繁琐性与低效性,通过训练的实体识别模型对待识别邮件中的实体名称进行自动识别,因此,不但可以提高识别的准确性、也减轻了OTA维护人工成本,也进一步可以对OTA英文房态更新邮件自动化阅览和分析管理。
较佳地,
所述语义识别模型包括双向LSTM(长短时记忆网络)模型、Self-Attention(自注意力)模型及CRF(条件随机场)模型;
将训练集中的初始实体信息和标记出的目标实体信息分别作为输入值及输出值对语义识别模型进行训练的步骤包括:
将训练集中的初始实体信息和标记出的目标实体信息分别作为输入值及输出值输入至所述双向LSTM模型;
将经过所述双向LSTM模型后得到的数据输入至所述Self-Attention模型;
将经过所述Self-Attention模型后得到的数据输入至所述CRF模型。
本发明中,通过拼接双向LSTM、Self-Attention以及CRF模型,从而不仅仅考虑到了现有的目标实体信息的语义表示,也避免了实体名称单词质检作为分词硬间隔便捷被分错的影响,从而使实体名称识别更精确。
较佳地,
所述目标实体信息还包括目标房型名称,所述初始实体信息包括初始房型名称;
若所述目标实体信息为所述目标房型名称,则标记出所述实体trie树中与所述初始实体信息相对应的目标实体信息的步骤后包括:
将所述目标房型名称及所述目标房型所属的酒店中的房型名称中的常规词用空值代替;
判断用空值代替后的目标房型名称与所述目标房型所属的酒店中的所有房型名称的jaccard(杰卡德距离)距离是否大于房型阈值,若是,
则将训练集中的初始房型名称和标记出的所述jaccard距离大于房型阈值的目标房型名称分别作为输入值及输出值对语义识别模型进行训练;
将预测集中的初始房型名称输入至训练后的语义识别模型中以得到预测房型名称;
根据所述预测房型名称与所述预测集中标记出的目标房型名称计算评估概率;
和/或,
若所述目标实体信息为目标房型名称,
则所述实体识别模型的构建步骤还包括:
对现有的房型名称中的特殊房型进行正则特殊化处理;
根据所述正则特殊化处理的规则识别每一所述历史邮件中存在的与所述特殊房型对应的目标房型名称;
和/或,
所述邮件为英文邮件。
其中,Jaccard距离用来度量两个集合之间的相似性,它被定义为两个集合交集的元素个数除以并集的元素个数。本实施例为目标房型名称与所述目标房型名称与其所属酒店的所有房型名称的相似性。
其中,所述特殊房型包括All room(所有房间)。
本发明中,可以识别出英文邮件中的目标房型名称,通过jaccard距离的计算,可以去除噪音,得到更准确的目标房型名称,并且通过正则特殊化特殊的房型名称,从而可以加快识别效率。
较佳地,所述识别邮件中酒店信息的方法包括:
识别所述待识别邮件中的目标日期;
通过关键词识别所述待识别邮件中的目标事件,所述目标事件包括开放状态及关闭状态;
所述识别邮件中酒店信息的系统还包括:
S1、创建上下文信息,所述上下文信息用于存放相互关联的所述目标酒店名称与所述目标事件;
S2、创建表单,所述表单用于存放对象;
S3、创建对象,所述对象用于储存相互关联的所述目标酒店名称、所述目标事件、所述目标房型名称及所述目标日期;
S4、扫描所述待识别邮件的主题,并判断所述主题中是否包含第一实体名称,所述第一实体名称包括所述目标酒店名称及所述目标事件,若是,则将所述第一实体名称添加至所述上下文信息中;
S5、逐行扫描所述待识别邮件的正文,并判断当前行是否包含第一实体名称,若是,则更新所述上下文信息中的第一实体名称;
S6、检测当前行中的第二实体名称,所述第二实体名称包括所述目标房型名称及所述目标日期中的至少一种;
若所述第二实体名称包括所述目标房型名称及所述目标日期,
则将所述当前对象添加至所述表单中,并通过所述第二实体名称创建第一对象并将所述上下文信息中的第一实体名称添加至所述第一对象中;
将所述第一对象添加至所述表单中;
创建第二对象;
判断当前邮件中的全部内容是否扫描完毕,若否,则执行步骤S5,若是,则执行步骤S7;
若所述第二实体仅包括所述目标日期,
则将所述目标日期添加至当前对象中;回收所述当前对象;创建新的对象;判断当前邮件中的全部内容是否扫描完毕,若否,则执行步骤S5,若是,则执行步骤S7;
若所述第二实体名称仅包括所述目标房型名称,
则回收当前对象,并将所述目标房型名称创建第二对象并将所述上下文信息中的第一实体名称添加至所述第二对象中;
将所述第二对象添加至所述表单中;
创建新的对象;
判断当前邮件中的全部内容是否扫描完毕,若否,则执行步骤S5,若是,则执行步骤S7;执行步骤S5;
S7、去除所述表单中实体为空的对象,并将第二房型阈值添加至房型为空的对象中;
S8、输出所有的对象。
其中,识别所述待识别邮件中的目标日期实体的步骤包括:
模糊匹配待识别邮件中的英文日期;
解析所述英文日期中对应的年、月及日。
本发明中,可以识别出目标酒店名称、目标房型名称、目标日期与目标事件,并将上述识别出的内容相互关联,通过实体关联上下文技术,对每封英文邮件的主题和内容,进行自动化扫描来从而将识别出的相互关联的信息输出。相比传统的海外英文房态邮件的业务规则处理方法,极大的提高了自动化处理准确率,不再人工手动搜索具体子酒店名称,从而节省了OTA客服操作人力的同时,减少了OTA客服处理的失误错误,提升OTA平台英文事件开放及关闭酒店的房间信息的效率响应。
较佳地,输出所有的对象的步骤前还包括:
判断每一对象中的房型实体名称与所述房型所属的酒店的所有房型的jaccard距离是否大于房型阈值,若是,则所述房型为有效房型;
将每一对象中的目标日期解析为预设日期格式。
本发明中,通过对识别出的房型实体名称做jaccard距离从而进一步提升了房型名称识别的准确性,通过输出预设格式的日期,从而便于用户查阅,增强了用户的体验。
本发明还提供了一种识别邮件中酒店信息的系统,所述系统包括:目标实体获取模块及实体模型获取模块;
所述目标实体获取模块用于将待识别邮件输入至实体识别模型中以得到目标实体信息;
所述实体模型获取模块用于构建所述实体识别模型,所述实体模型获取模块包括:trie树构建单元、初始实体获取单元、标记单元、训练单元、预测单元、概率计算单元及概率判断单元;
所述trie树构建单元用于根据现有的实体信息构建实体trie树;
所述初始实体获取单元用于将历史邮件输入至所述实体trie树中,以识别每一所述历史邮件中存在的初始实体信息;
所述标记单元用于标记出所述实体trie树中与所述初始实体信息相对应的目标实体信息;
所述训练单元用于将训练集中的初始实体信息和标记出的目标实体信息分别作为输入值及输出值对语义识别模型进行训练;
所述预测单元用于将预测集中的初始实体信息输入至训练后的语义识别模型中以得到预测实体信息;
所述概率计算单元用于根据所述预测实体信息与所述预测集中标记出的目标实体信息计算评估概率;
所述概率判断单元用于判断所述评估概率是否大于评估阈值,若是,则所述训练后的语义识别模型为所述实体识别模型;
所述目标实体信息包括目标酒店名称,所述初始实体信息包括初始酒店名称。
本发明通过trie树构建单元构建tire树以识别邮件中的实体名称,从而可以避免人工标注的繁琐性与低效性,通过训练的实体识别模型对待识别邮件中的实体名称进行自动识别,因此,不但可以提高识别的准确性、也减轻了OTA维护人工成本,也进一步可以对OTA英文房态更新邮件自动化阅览和分析管理。
较佳地,
所述语义识别模型包括双向LSTM模型、Self-Attention模型及CRF模型;
所述训练单元包括:第一输入子量元、第二输入子量元及第三输入子量元;
所述第一输入子量元用于将训练集中的初始实体信息和标记出的目标实体信息分别作为输入值及输出值输入至所述双向LSTM模型;
所述第二输入子量元用于将经过所述双向LSTM模型后得到的数据输入至所述Self-Attention模型;
所述第三输入子量元用于将经过所述Self-Attention模型后得到的数据输入至所述CRF模型。
本发明中,通过第一输入子量元、第二输入子量元及第三输入子量元进行拼接双向LSTM、Self-Attention以及CRF模型,从而不仅仅考虑到了现有的目标实体信息的语义表示,也避免了实体名称单词质检作为分词硬间隔便捷被分错的影响,从而使实体名称识别更精确。
较佳地,
所述目标实体信息还包括目标房型名称,所述初始实体信息包括初始房型名称;
若所述实体名称为房型名称;则所述实体模型获取模块包括空值替代单元及距离判断单元;
所述标记单元还用于在标记所述目标房型名称后,调用所述空值替代单元;
所述空值替代单元用于将所述目标房型名称及所述目标房型所属的酒店中的房型名称中的常规词用空值代替;
所述距离判断单元用于判断用空值代替后的目标房型名称与所述目标房型所属的酒店中的所有房型名称的jaccard距离是否大于房型阈值,若是,
则调用所述训练单元,所述训练单元用于将训练集中的初始房型名称和标记出的所述jaccard距离大于房型阈值的目标房型名称分别作为输入值及输出值对语义识别模型中进行训练;所述训练单元还用于将预测集中的初始房型名称输入至训练后的语义识别模型中以得到预测房型名称;并根据所述预测房型名称与所述预测集中标记出的目标房型名称计算评估概率;
和/或,
若所述目标实体信息为目标房型名称,
则所述实体模型获取模块还包括:特殊房型获取单元,用于对现有的房型名称中的特殊房型进行正则特殊化处理;并根据所述正则特殊化处理的规则识别每一所述历史邮件中存在的与所述特殊房型对应的目标房型名称;
和/或,
所述邮件为英文邮件。
其中,所述特殊房型包括All room。
本发明出中,可以识别出英文邮件中的目标房型名称,通过距离判断单元计算jaccard距离,可以去除噪音,得到更准确的目标房型名称,并且通过特殊房型获取单元来正则特殊化特殊的房型名称,从而可以加快识别效率。
较佳地,所述识别邮件中酒店信息的系统包括:日期获取模块及事件获取模块;
所述日期获取模块用于识别所述待识别邮件中的目标日期;
所述事件获取模块用于通过关键词识别所述待识别邮件中的目标事件,所述目标事件包括开放状态及关闭状态;
所述识别邮件中酒店信息的系统还包括:
上下文信息创建模块、表单创建模块、对象创建模块、主题判断模块、正文判断模块、第二实体检测模块、去除模块及输出模块;
所述上下文信息创建模块用于创建上下文信息及调用所述表单创建模块,所述上下文信息用于存放相互关联的所述目标酒店名称与所述目标事件;
所述表单创建模块用于创建表单及调用所述对象创建模块,所述表单用于存放对象;
所述对象创建模块用于创建对象及调用所述主题判断模块,所述对象用于储存相互关联的所述目标酒店名称、所述目标事件、所述目标房型名称及所述目标日期;
所述主题判断模块用于扫描所述待识别邮件的主题,并判断所述主题中是否包含第一实体名称,所述第一实体名称包括所述目标酒店名称及所述目标事件,若是,则将所述第一实体名称添加至所述上下文信息中,所述主题判断模块还用于在判断完所述主题中的第一实体名称后调用所述正文判断模块;
所述正文判断模块用于逐行扫描所述待识别邮件的正文,并判断当前行是否包含第一实体名称,若是,则更新所述上下文信息中的第一实体名称;
所述第二实体检测模块用于检测当前行中的第二实体名称,所述第二实体名称包括所述目标房型名称及所述目标日期中的至少一种;
若所述第二实体名称包括所述目标房型名称及所述目标日期,则所述识别系统还包括:实体添加模块、第一对象添加模块、第一对象创建模块及扫描判断模块;
所述实体添加模块用于将所述当前对象添加至所述表单中,并通过所述第二实体名称创建第一对象并将所述上下文信息中的第一实体名称添加至所述第一对象中,并调用所述第一对象添加模块;
所述第一对象添加模块用于将所述第一对象添加至所述表单中并调用所述第一对象创建模块;
所述第一对象创建模块用于创建第二对象并调用所述扫描判断模块;
所述扫描判断模块用于判断当前邮件中的全部内容是否扫描完毕,若否,则调用所述正文判断模块,若是,则调用所述输出模块;
若所述第二实体仅包括所述目标日期,则所述识别系统还包括:日期添加模块、回收模块、第二对象创建模块及扫描判断模块;
所述日期添加模块用于将所述目标日期添加至当前对象中;
所述回收模块用于回收所述当前对象;
所述第二对象创建模块用于创建新的对象;
所述扫描判断模块用于判断当前邮件中的全部内容是否扫描完毕,若否,则调用所述正文判断模块,若是,则调用所述输出模块;
若所述第二实体名称仅包括所述目标房型名称,则所述识别系统还包括:房型添加模块、第二对象添加模块、第三对象创建模块及扫描判断模块;
所述房型添加模块用于回收当前对象,并将所述目标房型名称创建第二对象并将所述上下文信息中的第一实体名称添加至所述第二对象中;
所述第二对象添加模块用于将所述第二对象添加至所述表单中;
所述第三对象创建模块用于创建新的对象;
所述扫描判断模块用于判断当前邮件中的全部内容是否扫描完毕,若否,则调用所述正文判断模块,若是,则调用所述输出模块;
所述去除模块用于去除所述表单中实体为空的对象,并将第二房型阈值添加至房型为空的对象中;
所述输出模块用于输出所有的对象。
其中,所述日期获取模块具体用于模糊匹配待识别邮件中的英文日期;
解析所述英文日期中对应的年、月及日。
本发明中,可以通过日期获取模块及事件获取模块在在识别出目标酒店名称及目标房型名称的同时、识别出目标日期与目标事件,并通过上下文信息创建模块、表单创建模块等模块将上述识别出的内容相互关联,通过实体关联上下文技术,对每封英文邮件的主题和内容,进行自动化扫描来从而将识别出的相互关联的信息通过输出模块输出。相比传统的海外英文房态邮件的业务规则处理方法,极大的提高了自动化处理准确率,不再人工手动搜索具体子酒店名称,从而节省了OTA客服操作人力的同时,减少了OTA客服处理的失误错误,提升OTA平台英文事件开放及关闭酒店的房间信息的效率响应。
较佳地,所述识别邮件中酒店信息的系统还包括:
有效房型判断模块及日期解析模块;
所述有效房型判断模块用于判断每一对象中的房型实体名称与所述房型所属的酒店的所有房型的jaccard距离是否大于房型阈值,若是,则所述房型为有效房型;
所述日期解析模块用于将每一对象中的目标日期解析为预设日期格式。
本发明中,通过所述有效房型判断模块对识别出的房型实体名称做jaccard距离从而进一步提升了房型名称识别的准确性,通过日期解析模块使输出模块输出预设格式的日期,从而便于用户查阅,增强了用户的体验。
本发明还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的识别邮件中酒店信息的方法。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的识别邮件中酒店信息的方法的步骤。
本发明的积极进步效果在于:
本发明通过构建tire树以识别邮件中的实体名称,从而可以避免人工标注的繁琐性与低效性,通过训练的实体识别模型对待识别邮件中的实体名称进行自动识别,因此,不但可以提高识别的准确性、也减轻了OTA维护人工成本,也进一步可以对OTA英文房态更新邮件自动化阅览和分析管理。
附图说明
图1为本发明实施例1的识别邮件中酒店信息的方法中获得酒店识别模型的方法的流程图。
图2为本发明实施例4的识别邮件中酒店信息的方法的部分流程图。
图3为本发明实施例4的识别邮件中酒店信息的方法的部分流程图。
图4为本发明实施例5的识别邮件中酒店信息的系统的模块示意图。
图5为本发明实施例8的识别邮件中酒店信息的系统的部分模块示意图。
图6为本发明实施例9的电子设备的硬件结构示意图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
本实施例提供了一种识别邮件中酒店信息的方法,所述识别方法包括:将待识别邮件输入至酒店实体识别模型中以得到目标酒店名称。
如图1所示,所述酒店实体识别模型通过下述步骤构建:
步骤101、根据现有的目标酒店名称构建实体trie树;
步骤102、将历史邮件输入至所述实体trie树中,以识别每一所述历史邮件中存在的初始酒店名称;
步骤103、标记出所述实体trie树中与所述初始实体信息相对应的目标实体信息;
步骤104、将训练集中的初始实体信息和标记出的目标实体信息分别作为输入值及输出值对语义识别模型进行训练;
步骤105、将预测集中的初始实体信息输入至训练后的语义识别模型中以得到预测实体信息;
步骤106、根据所述预测实体信息与所述预测集中标记出的目标实体信息计算评估概率;
步骤107、判断所述评估概率是否大于评估阈值,若是,则执行步骤108,若否,则执行步骤109。
步骤108、确定所述训练后的语义识别模型为所述酒店实体识别模型。
步骤109、对与所述目标酒店名称不符的初始酒店名称进行进一步训练直至所述评估概率大于所述评估阈值,执行步骤108。
为了更好的理解本实施例,下面举一个具体实例对本实施例进行进一步解释:
由于海外酒店数量非常庞大,使用机器学习或深度学习算法需要大量的人工标注,这与减轻OTA维护人工成本背道而驰。因此需要采用合适的方法先直接识别出个性化的酒店名称,考虑到OTA行业存在大量的酒店名称搜索词库,因此将酒店名称搜索词库小写化及去重,直接构建Trie树,通过Trie树直接识别出每句话中存在的目标酒店名称的开始位置和结束位置。
如英文邮件的原文为the wes seo hotel room close august 12,13.
通过构建的Trie树,我们识别出位置为1-17的为名称为the wes seo hotel的目标酒店名称,位置为1-11的为名称为the wes seo的目标酒店名称,位置为10-17的为名称为eo hotel的目标酒店名称,而在这里,我们需要通过英文单词的占位关系、包含关系取出掉识别出的无效酒店名称,本实施例中,the wes seo及eo hotel分别被the wes seohotel包含与占位,因此二者无效,第一个目标酒店名称the wes seo hotel为有效的酒店名称。
而通过trie树识别出的酒店名称可能准确率有限,所以需要对其识别出的酒店名称进行进一步的人工标注从而标记出目标酒店名称,而后将训练集中的初始酒店名称和标记出的目标酒店名称分别作为输入值及输出值至语义识别模型中进行训练。
本实施例中,语义识别模型为一双向LSTM与一Self-Attention模型及一CRF模型构建出的一模型,具体而言,在通过trie树别出初始酒店名称实体之后,再人工核验样本,对于样本中的每个句子,以非空格连续字母组成的字符串设计为一个单词,将单词视为一个单元输入,单词关联的最小边界实体名称作为辅助单元输入,构建网格双向LSTM模型,单词关联的目标酒店名称库,设计一个嵌入层向量表示,单元输入是一个正向LSTM串,最小边界实体名称是一个反向LSTM串,再双向拼接,向量融合后,经过一层双向LSTM,接入一个Self-Attention,再接一个CRF层。单词的嵌入层向量表示先使用所有英文邮件训练一个单词单元的向量。单词关联的最小边界实体名称嵌入层向量表示由名称库训练一个单词单元的向量。通过该模型,既考虑了现有大量名称库的语义表示,也避免了单词作为分词硬间隔边界被分错的影响。训练好了后,将预测集中的初始酒店名称和标记出的目标酒店名称分别作为输入值及输出值至训练后的语义识别模型中进行预测以得到评估概率,如果得到的评估概率满足评估阈值,则确定所述训练后的语义识别模型为所述酒店实体识别模型,如果不满足评估阈值,则对经过trie书后识别出的错误的酒店名称进行再次训练,直至评估概率满足评估阈值。
本实施例中,通过构建tire树以识别邮件中的目标酒店名称,从而可以避免人工标注的繁琐性与低效性,通过训练的酒店实体识别模型对待识别邮件中的目标酒店名称进行自动识别,因此,不但可以提高识别的准确性、也减轻了OTA维护人工成本,也进一步可以对邮件中酒店名称进行自动化阅览和分析管理。
实施例2
本实施例提供了一种识别邮件中酒店信息的方法,所述识别方法的流程与实施例1基本一致,不同之处在于,将实施例1中的酒店实体识别模型替换为房型实体识别模型,将目标酒店名称替换为目标房型名称,将初始酒店名称替换为初始房型名称,将实施例1中步骤104替换成步骤1033,将步骤105替换成步骤1034,将步骤106替换成步骤1035。
在本实施例中,步骤103后还包括:
步骤1031、将所述目标房型名称及所述目标房型所属的酒店中的房型名称中的常规词用空值代替;
步骤1032、判断用空值代替后的目标房型名称与所述目标房型所属的酒店中的所有房型名称的jaccard距离是否大于房型阈值,若是,则执行步骤1033,若否,则执行步骤1036;
步骤1033、将训练集中的初始房型名称和标记出的所述jaccard距离大于房型阈值的目标房型名称分别作为输入值及输出值对语义识别模型进行训练;
步骤1034、将预测集中的初始房型名称输入至训练后的语义识别模型中以得到预测房型名称;
步骤1035、根据所述预测房型名称与所述预测集中标记出的所述jaccard距离大于房型阈值的目标房型名称计算评估概率,执行步骤107;
步骤1036、确定所述房型名称为无效房型名称。
另外,本实施例中,还包括下述步骤:
对现有的房型名称中的特殊房型进行正则特殊化处理;
根据所述正则特殊化处理的规则识别每一所述历史邮件中存在的与所述特殊房型对应的目标房型名称;
如,ALL ROOM这种房型名称做正则特殊化处理,当邮件中出现ALL ROOM这样的房型名称时,则不通过步骤101-步骤108进行识别,而是直接通过建立的正则特殊化规则进行ALL ROOM房型识别,通过这种方式,可以加快对某一重复率较高的房型名称的识别效率。
本实施例中,通过构建tire树以识别邮件中的目标房型名称,从而可以避免人工标注的繁琐性与低效性,通过训练的房型实体识别模型对待识别邮件中的目标房型名称进行自动识别,因此,不但可以提高识别的准确性、也减轻了OTA维护人工成本,也进一步可以对邮件中房型名称进行自动化阅览和分析管理。
实施例3
本实施例是基于实施例1与实施例2做出的进一步改进,本实施例中的识别方法还包括步骤:识别所述待识别邮件中的目标日期。
由于英文描述中存在大量日期格式,而日期格式存在共性,即年、月、日。因此统计出所有英文日期的格式特点,先模糊匹配出所有英文日期,再解析出对应的年、月、日。对于日,存在多天的情况,多天如01 and 02,05-07,01 03 05等,则将天提取后单独处理这种格式。对于缺少年日期格式的则默认邮件发送日期的年为准。
如邮件中的原文为:01and 02 august 2018,august 10 12 2018
则识别出的目标日期为01 and 02,august,2018及10 12,august,2018。
本实施例还包括步骤:通过关键词识别所述待识别邮件中的目标事件,所述目标事件包括开放状态及关闭状态,如直接通过关键词open和close进行识别即可。
本实施例中,可以准确、自动地识别标日期与目标事件,从而可以进一步方便管理人员对邮件中的酒店信息进行管理。
实施例4
本实施例是在实施例1、实施例2与实施例3的基础上做出的进一步改进,本实施例在实施例1、实施例2与实施例3分别识别出目标酒店名称、目标房型名称、目标日期与目标事件后,通过图2及图3所示的步骤对上述信息进行进一步管理:
具体而言,在识别出上述信息后,如图2所示,执行下述步骤:
步骤201、创建上下文信息,所述上下文信息用于存放相互关联的所述目标酒店名称与所述目标事件;
步骤202、创建表单,所述表单用于存放对象;
步骤203、创建对象,所述对象用于储存相互关联的所述目标酒店名称、所述目标事件、所述目标房型名称及所述目标日期;
步骤204、扫描所述待识别邮件的主题,并判断所述主题中是否包含第一实体名称,若是,则执行步骤205,若否,则执行步骤206;
步骤205、将所述第一实体名称添加至所述上下文信息中;
步骤206、逐行扫描所述待识别邮件的正文并判断当前行是否包含第一实体名称,若否,则执行步骤207,若是,则执行步骤208。
步骤207、继续扫描下一行。
步骤208、检测当前行中的第二实体名称。
如图3所示,若所述第二实体名称包括所述目标房型名称及所述目标日期,则执行下述步骤:
步骤2181、将所述当前对象添加至所述表单中,并通过所述第二实体名称创建第一对象并将所述上下文信息中的第一实体名称添加至所述第一对象中;
步骤2182、将所述第一对象添加至所述表单中;
步骤2183、创建第二对象,并执行步骤211。
若所述第二实体名称若所述第二实体仅包括所述目标日期,则执行下述步骤:
步骤2281、将所述目标日期添加至当前对象中;
步骤2282、回收所述当前对象;
步骤2282、创建新的对象,并执行步骤211。
若所述第二实体名称若所述第二实体仅包括所述目标房型名称,则执行下述步骤:
步骤2381、回收当前对象,并将所述目标房型名称创建第二对象并将所述上下文信息中的第一实体名称添加至所述第二对象中;
步骤2382、将所述第二对象添加至所述表单中;
步骤2383、创建新的对象,并执行步骤211。
步骤211、判断当前邮件中的全部内容是否扫描完毕,若是,则执行步骤212,若否,则执行步骤206;
步骤212、检测当前行中的第二实体名称;
步骤213、去除所述表单中实体为空的对象,并将第二房型阈值添加至房型为空的对象中;
步骤214、输出所有的对象。
本实施例中,为了识别出更准确的目标房型名及目标日期,在步骤214前还包括步骤:
判断每一对象中的房型实体名称与所述房型所属的酒店的所有房型的jaccard距离是否大于房型阈值,若是,则所述房型为有效房型;
将每一对象中的目标事件名称解析为预设日期格式。
本实施例中,可以识别出目标酒店名称、目标房型名称、目标日期与目标事件,并将上述识别出的内容相互关联,通过实体关联上下文技术,对每封英文邮件的主题和内容,进行自动化扫描来从而将识别出的相互关联的信息输出。相比传统的海外英文房态邮件的业务规则处理方法,极大的提高了自动化处理准确率,不再人工手动搜索具体子酒店名称,从而节省了OTA客服操作人力的同时,减少了OTA客服处理的失误错误,提升OTA平台英文事件开放及关闭酒店的房间信息的效率响应。
实施例5
本实施例提供了一种识别邮件中酒店信息的系统,如图4所示,所述识别系统包括:目标实体获取模块301及实体模型获取模块308;
目标实体获取模块301用于将待识别邮件输入至实体识别模型中以得到目标酒店名称;
实体模型获取模块308用于构建所述酒店实体识别模型,所述实体模型获取模块包括:trie树构建单元302、初始实体获取单元303、标记单元304、训练单元305、预测单元306、概率判断单元307及概率计算单元309;
trie树构建单元302用于根据现有的目标酒店名称构建实体trie树;
初始实体获取单元303用于将历史邮件输入至所述实体trie树中,以识别每一所述历史邮件中存在的初始酒店名称;
标记单元304用于标记出所述实体trie树中与所述初始酒店名称相对应的目标酒店名称;
训练单元305用于将训练集中的初始酒店名称和标记出的目标酒店名称分别作为输入值及输出值对语义识别模型进行训练;
预测单元306用于将预测集中的初始酒店名称输入至训练后的语义识别模型中以得到预测酒店名称;
概率计算单元309用于根据所述预测酒店名称与所述预测集中标记出的目标酒店名称计算评估概率;
概率判断单元307用于判断所述评估概率是否大于评估阈值,若是,则所述训练后的语义识别模型为所述酒店实体识别模型。
为了更好的理解本实施例,下面举一个具体实例对本实施例进行进一步解释:
由于海外酒店数量非常庞大,使用机器学习或深度学习算法需要大量的人工标注,这与减轻OTA维护人工成本背道而驰。因此需要采用合适的方法先直接识别出个性化的酒店名称,考虑到OTA行业存在大量的酒店名称搜索词库,因此将酒店名称搜索词库,小写化,去重,直接通过trie树构建单元302构建Trie树,通过Trie树直接识别出每句话中存在的目标酒店名称的开始位置和结束位置。
如英文邮件的原文为the wes seo hotel room close august 12,13.
通过trie树构建单元302构建的Trie树,我们识别出位置为1-17的为名称为thewes seo hotel的目标酒店名称,位置为1-11的为名称为the wes seo的目标酒店名称,位置为10-17的为名称为eo hotel的目标酒店名称,而在这里,我们需要通过英文单词的占位关系、包含关系取出掉识别出的无效酒店名称,本实施例中,the wes seo及eo hotel分别被the wes seo hotel包含与占位,因此二者无效,第一个目标酒店名称the wes seohotel为有效的酒店名称。
而通过trie树识别出的酒店名称可能准确率有限,所以需要对其识别出的酒店名称通过标记单元304进行进一步的人工标注从而标记出目标酒店名称,而后通过训练单元305将训练集中的初始酒店名称和标记出的目标酒店名称分别作为输入值及输出值至语义识别模型中进行训练。
本实施例中,语义识别模型为一双向LSTM与一Self-Attention模型及一CRF模型构建出的一模型,具体而言,在通过trie树别出初始酒店名称实体之后,再人工核验样本,对于样本中的每个句子,以非空格连续字母组成的字符串设计为一个单词,将单词视为一个单元输入,单词关联的最小边界实体名称作为辅助单元输入,构建网格双向LSTM模型,单词关联的目标酒店名称库,设计一个嵌入层向量表示,单元输入是一个正向LSTM串,最小边界实体名称是一个反向LSTM串,再双向拼接,向量融合后,经过一层双向LSTM,接入一个Self-Attention,再接一个CRF层。单词的嵌入层向量表示先使用所有英文邮件训练一个单词单元的向量。单词关联的最小边界实体名称嵌入层向量表示由名称库训练一个单词单元的向量。通过该模型,既考虑了现有大量名称库的语义表示,也避免了单词作为分词硬间隔边界被分错的影响。训练好了后,将预测集中的初始酒店名称和标记出的目标酒店名称分别作为输入值及输出值至训练后的语义识别模型中进行预测以得到评估概率,如果得到的评估概率满足评估阈值,则确定所述训练后的语义识别模型为所述酒店实体识别模型,如果不满足评估阈值,则对经过trie树后识别出的错误的酒店名称进行再次训练,直至评估概率满足评估阈值。
本实施例中,通过trie树构建单元构建tire树以识别邮件中的实体名称,从而可以避免人工标注的繁琐性与低效性,通过训练的实体识别模型对待识别邮件中的实体名称进行自动识别,因此,不但可以提高识别的准确性、也减轻了OTA维护人工成本,也进一步可以对OTA英文房态更新邮件自动化阅览和分析管理。
本实施例中,通过拼接的双向LSTM、Self-Attention以及CRF模型,从而不仅仅考虑到了现有的目标实体信息的语义表示,也避免了酒店名称由于其由一个个单词组成而其中的单词被硬性分离而识别出错,从而使实体名称识别更精确。
实施例6
本实施例提供了一种识别邮件中酒店信息的系统,所述识别系统与实施例1基本一致,不同之处在于,将实施例1中的酒店实体识别模型替换为房型实体识别模型,将目标酒店名称替换为目标房型名称,将初始酒店名称替换为初始房型名称。
另外,实体模型获取模块308还包括空值替代单元及距离判断单元;
标记单元304还用于在标记所述目标房型名称后,调用所述空值替代单元;
所述空值替代单元用于将所述目标房型名称及所述目标房型所属的酒店中的房型名称中的常规词用空值代替;
所述距离判断单元用于判断用空值代替后的目标房型名称与所述目标房型所属的酒店中的所有房型名称的jaccard距离是否大于房型阈值,若是,
则调用所述训练单元,所述训练单元用于将训练集中的初始房型名称和标记出的所述jaccard距离大于房型阈值的目标房型名称分别作为输入值及输出值对语义识别模型中进行训练;训练单元305还用于将预测集中的初始房型名称输入至训练后的语义识别模型中以得到预测房型名称;并根据所述预测房型名称与所述预测集中标记出的目标房型名称计算评估概率;
本实施例中,实体模型获取模块还包括:特殊房型获取单元,用于对现有的房型名称中的特殊房型进行正则特殊化处理;并根据所述正则特殊化处理的规则识别每一所述历史邮件中存在的与所述特殊房型对应的目标房型名称。
如,ALL ROOM这种房型名称做正则特殊化处理,当邮件中出现ALL ROOM这样的房型名称时,则不通过模块302-308进行处理,而是直接通过特殊房型获取单元建立的正则特殊化规则进行ALL ROOM房型识别,通过这种方式,可以加快对某一重复率较高的房型名称的识别效率。
本实施例中,通过trie树构建单元构建tire树以识别邮件中的目标房型名称,从而可以避免人工标注的繁琐性与低效性,通过训练单元训练的房型实体识别模型对待识别邮件中的目标房型名称进行自动识别,因此,不但可以提高识别的准确性、也减轻了OTA维护人工成本,也进一步可以对邮件中房型名称进行自动化阅览和分析管理。
实施例7
本实施例是基于实施例1与实施例2做出的进一步改进,本实施例中的识别方法还包括日期获取模块及事件获取模块;
所述日期获取模块用于识别所述待识别邮件中的目标日期;
所述事件获取模块用于通过关键词识别所述待识别邮件中的目标事件,所述目标事件包括开放状态及关闭状态,如直接通过关键词open和close进行识别即可。
其中,所述日期获取模块具体用于模糊匹配待识别邮件中的英文日期;
解析所述英文日期中对应的年、月及日。
由于英文描述中存在大量日期格式,而日期格式存在共性,即年、月、日。因此统计出所有英文日期的格式特点,先通过日期获取模块模糊匹配出所有英文日期,再解析出对应的年、月、日。对于日,存在多天的情况,多天如01 and 02,05-07,01 03 05等,则将天提取后单独处理这种格式。对于缺少年日期格式的则默认邮件发送日期的年为准。
如邮件中的原文为:01 and 02 august 2018,august 10 12 2018
则识别出的目标日期为01 and 02,august,2018及10 12,august,2018。
本实施例中,通过日期获取模块及事件获取模块可以准确、自动地识别标日期与目标事件,从而可以进一步方便管理人员对邮件中的酒店信息进行管理。
实施例8
本实施例是在实施例5、实施例6与实施例7的基础上做出的进一步改进,本实施例在实施例5、实施例6与实施例7分别识别出目标酒店名称、目标房型名称、目标日期与目标事件后,上述信息进行进一步管理,如图5所示,本实施例中的识别系统还包括:
上下文信息创建模块501、表单创建模块502、对象创建模块503、主题判断模块504、正文判断模块505、第二实体检测模块506、去除模块507及输出模块508;
上下文信息创建模块501用于创建上下文信息及调用所述表单创建模块,所述上下文信息用于存放相互关联的所述目标酒店名称与所述目标事件;
表单创建模块502用于创建表单及调用所述对象创建模块,所述表单用于存放对象;
对象创建模块503用于创建对象及调用所述主题判断模块,所述对象用于储存相互关联的所述目标酒店名称、所述目标事件、所述目标房型名称及所述目标日期;
主题判断模块504用于扫描所述待识别邮件的主题,并判断所述主题中是否包含第一实体名称,所述第一实体名称包括所述目标酒店名称及所述目标事件,若是,则将所述第一实体名称添加至所述上下文信息中,所述主题判断模块还用于在判断完所述主题中的第一实体名称后调用所述正文判断模块;
正文判断模块505用于逐行扫描所述待识别邮件的正文,并判断当前行是否包含第一实体名称,若是,则更新所述上下文信息中的第一实体名称;
第二实体检测模块506用于检测当前行中的第二实体名称,所述第二实体名称包括所述目标房型名称及所述目标日期中的至少一种;
若所述第二实体名称包括所述目标房型名称及所述目标日期,则所述识别系统还包括:实体添加模块、第一对象添加模块、第一对象创建模块及扫描判断模块;
所述实体添加模块用于将所述当前对象添加至所述表单中,并通过所述第二实体名称创建第一对象并将所述上下文信息中的第一实体名称添加至所述第一对象中,并调用所述第一对象添加模块;
所述第一对象添加模块用于将所述第一对象添加至所述表单中并调用所述第一对象创建模块;
所述第一对象创建模块用于创建第二对象并调用所述扫描判断模块;
所述扫描判断模块用于判断当前邮件中的全部内容是否扫描完毕,若否,则调用所述正文判断模块,若是,则调用所述输出模块;
若所述第二实体仅包括所述目标日期,则所述识别系统还包括:日期添加模块、回收模块、第二对象创建模块及扫描判断模块;
所述日期添加模块用于将所述目标日期添加至当前对象中;
所述回收模块用于回收所述当前对象;
所述第二对象创建模块用于创建新的对象;
所述扫描判断模块用于判断当前邮件中的全部内容是否扫描完毕,若否,则调用所述正文判断模块,若是,则调用所述输出模块;
若所述第二实体名称仅包括所述目标房型名称,则所述识别系统还包括:房型添加模块、第二对象添加模块、第三对象创建模块及扫描判断模块;
所述房型添加模块用于回收当前对象,并将所述目标房型名称创建第二对象并将所述上下文信息中的第一实体名称添加至所述第二对象中;
所述第二对象添加模块用于将所述第二对象添加至所述表单中;
所述第三对象创建模块用于创建新的对象;
所述扫描判断模块用于判断当前邮件中的全部内容是否扫描完毕,若否,则调用所述正文判断模块,若是,则调用所述输出模块;
去除模块507用于去除所述表单中实体为空的对象,并将第二房型阈值添加至房型为空的对象中;
输出模块508用于输出所有的对象。
所述识别系统还包括:
有效房型判断模块及日期解析模块;
所述有效房型判断模块用于判断每一对象中的房型实体名称与所述房型所属的酒店的所有房型的jaccard距离是否大于房型阈值,若是,则所述房型为有效房型;
所述日期解析模块用于将每一对象中的目标事件名称解析为预设日期格式。
本发明中,可以通过日期获取模块及事件获取模块在在识别出目标酒店名称及目标房型名称的同时、识别出目标日期与目标事件,并通过上下文信息创建模块、表单创建模块等模块将上述识别出的内容相互关联,通过实体关联上下文技术,对每封英文邮件的主题和内容,进行自动化扫描来从而将识别出的相互关联的信息通过输出模块输出。相比传统的海外英文房态邮件的业务规则处理方法,极大的提高了自动化处理准确率,不再人工手动搜索具体子酒店名称,从而节省了OTA客服操作人力的同时,减少了OTA客服处理的失误及错误,提升OTA平台英文事件开放及关闭酒店的房间信息的效率响应。
本发明中,通过所述有效房型判断模块对识别出的房型实体名称做jaccard距离从而进一步提升了房型名称识别的准确性,通过日期解析模块使输出模块输出预设格式的日期,从而便于用户查阅,增强了用户的体验。
实施例9
本实施例提供一种电子设备,电子设备可以通过计算设备的形式表现(例如可以为服务器设备),包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中处理器执行计算机程序时可以实现实施例1提供的多途经点的路径规划方法。
图6示出了本实施例的硬件结构示意图,如图6所示,电子设备9具体包括:
至少一个处理器91、至少一个存储器92以及用于连接不同系统组件(包括处理器91和存储器92)的总线93,其中:
总线93包括数据总线、地址总线和控制总线。
存储器92包括易失性存储器,例如随机存取存储器(RAM)921和/或高速缓存存储器922,还可以进一步包括只读存储器(ROM)923。
存储器92还包括具有一组(至少一个)程序模块924的程序/实用工具925,这样的程序模块924包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
处理器91通过运行存储在存储器92中的计算机程序,从而执行各种功能应用以及数据处理,例如本发明实施例1-4所提供的识别邮件中酒店信息的方法。
电子设备9进一步可以与一个或多个外部设备94(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口95进行。并且,电子设备9还可以通过网络适配器96与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器96通过总线93与电子设备9的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备9使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
实施例10
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现实施例1-4所提供的识别邮件中酒店信息的方法的步骤。
其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行实现实施例1-4所提供的识别邮件中酒店信息的方法的步骤。
其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
Claims (12)
1.一种识别邮件中酒店信息的方法,其特征在于,所述方法包括:
将待识别邮件输入至实体识别模型中以得到目标实体信息;
所述实体识别模型通过下述步骤构建:
根据现有的实体信息构建实体trie树;
将历史邮件输入至所述实体trie树中,以识别每一所述历史邮件中存在的初始实体信息;
标记出所述实体trie树中与所述初始实体信息相对应的目标实体信息;
将训练集中的初始实体信息和标记出的目标实体信息分别作为输入值及输出值对语义识别模型进行训练;
将预测集中的初始实体信息输入至训练后的语义识别模型中以得到预测实体信息;
根据所述预测实体信息与所述预测集中标记出的目标实体信息计算评估概率;
判断所述评估概率是否大于评估阈值,若是,则所述训练后的语义识别模型为所述实体识别模型;
所述目标实体信息包括目标酒店名称,所述初始实体信息包括初始酒店名称。
2.如权利要求1所述的识别邮件中酒店信息的方法,其特征在于,
所述语义识别模型包括双向LSTM模型、Self-Attention模型及CRF模型;
将训练集中的初始实体信息和标记出的目标实体信息分别作为输入值及输出值对语义识别模型进行训练的步骤包括:
将训练集中的初始实体信息和标记出的目标实体信息分别作为输入值及输出值输入至所述双向LSTM模型;
将经过所述双向LSTM模型后得到的数据输入至所述Self-Attention模型;
将经过所述Self-Attention模型后得到的数据输入至所述CRF模型。
3.如权利要求1所述的识别邮件中酒店信息的方法,其特征在于,
所述目标实体信息还包括目标房型名称,所述初始实体信息包括初始房型名称;
若所述目标实体信息为所述目标房型名称,则标记出所述实体trie树中与所述初始实体信息相对应的目标实体信息的步骤后包括:
将所述目标房型名称及所述目标房型所属的酒店中的房型名称中的常规词用空值代替;
判断用空值代替后的目标房型名称与所述目标房型所属的酒店中的所有房型名称的jaccard距离是否大于房型阈值,若是,
则将训练集中的初始房型名称和标记出的所述jaccard距离大于房型阈值的目标房型名称分别作为输入值及输出值对语义识别模型进行训练;
将预测集中的初始房型名称输入至训练后的语义识别模型中以得到预测房型名称;
根据所述预测房型名称与所述预测集中标记出的所述jaccard距离大于房型阈值的目标房型名称计算评估概率;
和/或,
若所述目标实体信息为目标房型名称,
则所述实体识别模型的构建步骤还包括:
对现有的房型名称中的特殊房型进行正则特殊化处理;
根据所述正则特殊化处理的规则识别每一所述历史邮件中存在的与所述特殊房型对应的目标房型名称;
和/或,
所述邮件为英文邮件。
4.如权利要求3所述的识别邮件中酒店信息的方法,其特征在于,所述识别邮件中酒店信息的方法包括:
识别所述待识别邮件中的目标日期;
通过关键词识别所述待识别邮件中的目标事件,所述目标事件包括开放状态及关闭状态;
所述识别邮件中酒店信息的方法还包括:
S1、创建上下文信息,所述上下文信息用于存放相互关联的所述目标酒店名称与所述目标事件;
S2、创建表单,所述表单用于存放对象;
S3、创建对象,所述对象用于储存相互关联的所述目标酒店名称、所述目标事件、所述目标房型名称及所述目标日期;
S4、扫描所述待识别邮件的主题,并判断所述主题中是否包含第一实体名称,所述第一实体名称包括所述目标酒店名称及所述目标事件,若是,则将所述第一实体名称添加至所述上下文信息中;
S5、逐行扫描所述待识别邮件的正文,并判断当前行是否包含第一实体名称,若是,则更新所述上下文信息中的第一实体名称;
S6、检测当前行中的第二实体名称,所述第二实体名称包括所述目标房型名称及所述目标日期中的至少一种;
若所述第二实体名称包括所述目标房型名称及所述目标日期,
则将当前对象添加至所述表单中,并通过所述第二实体名称创建第一对象并将所述上下文信息中的第一实体名称添加至所述第一对象中;
将所述第一对象添加至所述表单中;
创建第二对象;
判断当前邮件中的全部内容是否扫描完毕,若否,则执行步骤S5,若是,则执行步骤S7;
若所述第二实体仅包括所述目标日期,
则将所述目标日期添加至当前对象中;回收所述当前对象;创建新的对象;判断当前邮件中的全部内容是否扫描完毕,若否,则执行步骤S5,若是,则执行步骤S7;
若所述第二实体名称仅包括所述目标房型名称,
则回收当前对象,并将所述目标房型名称创建第二对象并将所述上下文信息中的第一实体名称添加至所述第二对象中;
将所述第二对象添加至所述表单中;
创建新的对象;
判断当前邮件中的全部内容是否扫描完毕,若否,则执行步骤S5,若是,则执行步骤S7;执行步骤S5;
S7、去除所述表单中实体为空的对象,并将第二房型阈值添加至房型为空的对象中;
S8、输出所有的对象。
5.如权利要求4所述的识别邮件中酒店信息的方法,其特征在于,输出所有的对象的步骤前还包括:
判断每一对象中的房型实体名称与所述房型所属的酒店的所有房型的jaccard距离是否大于房型阈值,若是,则所述房型为有效房型;
将每一对象中的目标日期解析为预设日期格式。
6.一种识别邮件中酒店信息的系统,其特征在于,所述系统包括:目标实体获取模块及实体模型获取模块;
所述目标实体获取模块用于将待识别邮件输入至实体识别模型中以得到目标实体信息;
所述实体模型获取模块用于构建所述实体识别模型,所述实体模型获取模块包括:trie树构建单元、初始实体获取单元、标记单元、训练单元、预测单元、概率计算单元及概率判断单元;
所述trie树构建单元用于根据现有的实体信息构建实体trie树;
所述初始实体获取单元用于将历史邮件输入至所述实体trie树中,以识别每一所述历史邮件中存在的初始实体信息;
所述标记单元用于标记出所述实体trie树中与所述初始实体信息相对应的目标实体信息;
所述训练单元用于将训练集中的初始实体信息和标记出的目标实体信息分别作为输入值及输出值对语义识别模型进行训练;
所述预测单元用于将预测集中的初始实体信息输入至训练后的语义识别模型中以得到预测实体信息;
所述概率计算单元用于根据所述预测实体信息与所述预测集中标记出的目标实体信息计算评估概率;
所述概率判断单元用于判断所述评估概率是否大于评估阈值,若是,则所述训练后的语义识别模型为所述实体识别模型;
所述目标实体信息包括目标酒店名称,所述初始实体信息包括初始酒店名称。
7.如权利要求6所述的识别邮件中酒店信息的系统,其特征在于,
所述语义识别模型包括双向LSTM模型、Self-Attention模型及CRF模型;
所述训练单元包括:第一输入子量元、第二输入子量元及第三输入子量元;
所述第一输入子量元用于将训练集中的初始实体信息和标记出的目标实体信息分别作为输入值及输出值输入至所述双向LSTM模型;
所述第二输入子量元用于将经过所述双向LSTM模型后得到的数据输入至所述Self-Attention模型;
所述第三输入子量元用于将经过所述Self-Attention模型后得到的数据输入至所述CRF模型。
8.如权利要求6所述的识别邮件中酒店信息的系统,其特征在于,
所述目标实体信息还包括目标房型名称,所述初始实体信息包括初始房型名称;
若所述实体名称为房型名称;则所述实体模型获取模块包括空值替代单元及距离判断单元;
所述标记单元还用于在标记所述目标房型名称后,调用所述空值替代单元;
所述空值替代单元用于将所述目标房型名称及所述目标房型所属的酒店中的房型名称中的常规词用空值代替;
所述距离判断单元用于判断用空值代替后的目标房型名称与所述目标房型所属的酒店中的所有房型名称的jaccard距离是否大于房型阈值,若是,
则调用所述训练单元,所述训练单元用于将训练集中的初始房型名称和标记出的所述jaccard距离大于房型阈值的目标房型名称分别作为输入值及输出值对语义识别模型中进行训练;所述训练单元还用于将预测集中的初始房型名称输入至训练后的语义识别模型中以得到预测房型名称;并根据所述预测房型名称与所述预测集中标记出的目标房型名称计算评估概率;
和/或,
若所述目标实体信息为目标房型名称,
则所述实体模型获取模块还包括:特殊房型获取单元,用于对现有的房型名称中的特殊房型进行正则特殊化处理;并根据所述正则特殊化处理的规则识别每一所述历史邮件中存在的与所述特殊房型对应的目标房型名称;
和/或,
所述邮件为英文邮件。
9.如权利要求8所述的识别邮件中酒店信息的系统,其特征在于,所述识别邮件中酒店信息的系统包括:日期获取模块及事件获取模块;
所述日期获取模块用于识别所述待识别邮件中的目标日期;
所述事件获取模块用于通过关键词识别所述待识别邮件中的目标事件,所述目标事件包括开放状态及关闭状态;
所述识别邮件中酒店信息的系统还包括:
上下文信息创建模块、表单创建模块、对象创建模块、主题判断模块、正文判断模块、第二实体检测模块、去除模块及输出模块;
所述上下文信息创建模块用于创建上下文信息及调用所述表单创建模块,所述上下文信息用于存放相互关联的所述目标酒店名称与所述目标事件;
所述表单创建模块用于创建表单及调用所述对象创建模块,所述表单用于存放对象;
所述对象创建模块用于创建对象及调用所述主题判断模块,所述对象用于储存相互关联的所述目标酒店名称、所述目标事件、所述目标房型名称及所述目标日期;
所述主题判断模块用于扫描所述待识别邮件的主题,并判断所述主题中是否包含第一实体名称,所述第一实体名称包括所述目标酒店名称及所述目标事件,若是,则将所述第一实体名称添加至所述上下文信息中,所述主题判断模块还用于在判断完所述主题中的第一实体名称后调用所述正文判断模块;
所述正文判断模块用于逐行扫描所述待识别邮件的正文,并判断当前行是否包含第一实体名称,若是,则更新所述上下文信息中的第一实体名称;
所述第二实体检测模块用于检测当前行中的第二实体名称,所述第二实体名称包括所述目标房型名称及所述目标日期中的至少一种;
若所述第二实体名称包括所述目标房型名称及所述目标日期,则所述系统还包括:实体添加模块、第一对象添加模块、第一对象创建模块及扫描判断模块;
所述实体添加模块用于将当前对象添加至所述表单中,并通过所述第二实体名称创建第一对象并将所述上下文信息中的第一实体名称添加至所述第一对象中,并调用所述第一对象添加模块;
所述第一对象添加模块用于将所述第一对象添加至所述表单中并调用所述第一对象创建模块;
所述第一对象创建模块用于创建第二对象并调用所述扫描判断模块;
所述扫描判断模块用于判断当前邮件中的全部内容是否扫描完毕,若否,则调用所述正文判断模块,若是,则调用所述输出模块;
若所述第二实体仅包括所述目标日期,则所述识别系统还包括:日期添加模块、回收模块、第二对象创建模块及扫描判断模块;
所述日期添加模块用于将所述目标日期添加至当前对象中;
所述回收模块用于回收所述当前对象;
所述第二对象创建模块用于创建新的对象;
所述扫描判断模块用于判断当前邮件中的全部内容是否扫描完毕,若否,则调用所述正文判断模块,若是,则调用所述输出模块;
若所述第二实体名称仅包括所述目标房型名称,则所述系统还包括:房型添加模块、第二对象添加模块、第三对象创建模块及扫描判断模块;
所述房型添加模块用于回收当前对象,并将所述目标房型名称创建第二对象并将所述上下文信息中的第一实体名称添加至所述第二对象中;
所述第二对象添加模块用于将所述第二对象添加至所述表单中;
所述第三对象创建模块用于创建新的对象;
所述扫描判断模块用于判断当前邮件中的全部内容是否扫描完毕,若否,则调用所述正文判断模块,若是,则调用所述输出模块;
所述去除模块用于去除所述表单中实体为空的对象,并将第二房型阈值添加至房型为空的对象中;
所述输出模块用于输出所有的对象。
10.如权利要求9所述的识别邮件中酒店信息的系统,其特征在于,所述识别邮件中酒店信息的系统还包括:
有效房型判断模块及日期解析模块;
所述有效房型判断模块用于判断每一对象中的房型实体名称与所述房型所属的酒店的所有房型的jaccard距离是否大于房型阈值,若是,则所述房型为有效房型;
所述日期解析模块用于将每一对象中的目标日期解析为预设日期格式。
11.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5任一项所述的识别邮件中酒店信息的方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5任一项所述的识别邮件中酒店信息的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910971189.1A CN110738054B (zh) | 2019-10-14 | 2019-10-14 | 识别邮件中酒店信息的方法、系统、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910971189.1A CN110738054B (zh) | 2019-10-14 | 2019-10-14 | 识别邮件中酒店信息的方法、系统、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110738054A CN110738054A (zh) | 2020-01-31 |
CN110738054B true CN110738054B (zh) | 2023-07-07 |
Family
ID=69269966
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910971189.1A Active CN110738054B (zh) | 2019-10-14 | 2019-10-14 | 识别邮件中酒店信息的方法、系统、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110738054B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113297651A (zh) * | 2020-07-16 | 2021-08-24 | 躺平设计家(上海)科技有限公司 | 三维房型数据的生成方法、装置及设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107851093A (zh) * | 2015-06-30 | 2018-03-27 | 微软技术许可有限责任公司 | 利用语义分层结构来处理自由形式的文本 |
CN110321432A (zh) * | 2019-06-24 | 2019-10-11 | 拓尔思信息技术股份有限公司 | 文本事件信息提取方法、电子装置和非易失性存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8712809B2 (en) * | 2005-08-11 | 2014-04-29 | Jet Set Sports Holdings, Lp | Method for olympic event hospitality program management |
WO2013082151A1 (en) * | 2011-11-29 | 2013-06-06 | Smart Layover | Layover management system and method |
CN107679674B (zh) * | 2017-10-23 | 2021-06-11 | 携程计算机技术(上海)有限公司 | Ota平台海外酒店房型服务缺陷的预测方法及系统 |
CN108536679B (zh) * | 2018-04-13 | 2022-05-20 | 腾讯科技(成都)有限公司 | 命名实体识别方法、装置、设备及计算机可读存储介质 |
CN108665283B (zh) * | 2018-04-28 | 2022-04-12 | 携程计算机技术(上海)有限公司 | Ota平台的酒店房型价格异常的识别方法及系统 |
CN109299458B (zh) * | 2018-09-12 | 2023-03-28 | 广州多益网络股份有限公司 | 实体识别方法、装置、设备及存储介质 |
CN110287495A (zh) * | 2019-07-01 | 2019-09-27 | 国网江苏省电力有限公司电力科学研究院 | 一种电力营销专业词识别方法及系统 |
-
2019
- 2019-10-14 CN CN201910971189.1A patent/CN110738054B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107851093A (zh) * | 2015-06-30 | 2018-03-27 | 微软技术许可有限责任公司 | 利用语义分层结构来处理自由形式的文本 |
CN110321432A (zh) * | 2019-06-24 | 2019-10-11 | 拓尔思信息技术股份有限公司 | 文本事件信息提取方法、电子装置和非易失性存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110738054A (zh) | 2020-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11734328B2 (en) | Artificial intelligence based corpus enrichment for knowledge population and query response | |
US10489439B2 (en) | System and method for entity extraction from semi-structured text documents | |
CN110597964B (zh) | 一种双录质检语义分析方法、装置及双录质检系统 | |
CN111125317A (zh) | 对话型文本分类的模型训练、分类、系统、设备和介质 | |
CA3048356A1 (en) | Unstructured data parsing for structured information | |
CN106778878B (zh) | 一种人物关系分类方法及装置 | |
US11366798B2 (en) | Intelligent record generation | |
CN113191148A (zh) | 一种基于半监督学习和聚类的轨道交通实体识别方法 | |
CN111753082A (zh) | 基于评论数据的文本分类方法及装置、设备和介质 | |
CN114298035A (zh) | 一种文本识别脱敏方法及其系统 | |
CN110555205A (zh) | 否定语义识别方法及装置、电子设备、存储介质 | |
CN111428480A (zh) | 简历识别方法、装置、设备及存储介质 | |
CN112445775B (zh) | 一种光刻机的故障分析方法、装置、设备和存储介质 | |
CN114003690A (zh) | 信息标注方法、模型训练方法、电子设备及存储介质 | |
CN116383193A (zh) | 一种数据管理方法、装置、电子设备和存储介质 | |
JP2019212115A (ja) | 検査装置、検査方法、プログラム及び学習装置 | |
WO2022143608A1 (zh) | 语言标注方法、装置、计算机设备和存储介质 | |
CN117454884B (zh) | 历史人物信息纠错方法、系统、电子设备和存储介质 | |
CN114969387A (zh) | 文献作者信息消歧方法、装置及电子设备 | |
CN110738054B (zh) | 识别邮件中酒店信息的方法、系统、电子设备及存储介质 | |
CN111694957B (zh) | 基于图神经网络的问题单分类方法、设备及存储介质 | |
CN113591480B (zh) | 电力计量的命名实体识别方法、装置和计算机设备 | |
CN107577760B (zh) | 一种基于约束规范的文本分类方法及装置 | |
CN115294593A (zh) | 一种图像信息抽取方法、装置、计算机设备及存储介质 | |
CN114356924A (zh) | 用于从结构化文档提取数据的方法和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |