CN110851569A - 数据处理方法、装置、设备及存储介质 - Google Patents
数据处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN110851569A CN110851569A CN201911101348.9A CN201911101348A CN110851569A CN 110851569 A CN110851569 A CN 110851569A CN 201911101348 A CN201911101348 A CN 201911101348A CN 110851569 A CN110851569 A CN 110851569A
- Authority
- CN
- China
- Prior art keywords
- travel
- original text
- label
- vector
- tag
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 15
- 238000012545 processing Methods 0.000 claims abstract description 154
- 238000000034 method Methods 0.000 claims abstract description 50
- 239000013598 vector Substances 0.000 claims description 180
- 238000003062 neural network model Methods 0.000 claims description 21
- 230000011218 segmentation Effects 0.000 claims description 21
- 230000015654 memory Effects 0.000 claims description 19
- 238000006243 chemical reaction Methods 0.000 claims description 16
- 230000004044 response Effects 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 206010019345 Heat stroke Diseases 0.000 description 2
- 208000007180 Sunstroke Diseases 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/14—Travel agencies
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Human Resources & Organizations (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- Artificial Intelligence (AREA)
- Marketing (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种数据处理方法、装置、设备及存储介质,涉及旅游技术领域。具体方法的实现方案包括:获取至少一个原始文本,其中,所述至少一个原始文本中的每一个原始文本包括至少一个地点信息;确定所述至少一个原始文本中的每一个原始文本对应的至少一个旅游标签;根据所述至少一个原始文本中的每一个原始文本的所述至少一个地点信息和所述至少一个旅游标签,确定不同地点信息与不同旅游标签之间的对应关系,得到知识图谱。知识图谱中描述了不同地点信息与不同旅游标签之间的对应关系,能够为用户提供丰富的旅游知识,参考价值大,实用性强。
Description
技术领域
本申请涉及旅游技术领域,尤其是一种数据处理方法、装置、设备及存储介质。
背景技术
随着互联网技术的迅速发展,用户通过互联网获取旅游知识和交流旅游心得的方式变得非常普及。
相关技术中,用户在网络中查阅其他用户发表的游记、日志、微博等文本内容,通过文本内容中描述的景点信息或旅游主题等信息来获取其需要的旅游知识。
然而,用户只能通过其查阅的有限的文本内容来获取需要的旅游知识,用户能够获取的旅游知识内容有限,参考价值弱,且用户无法获取为其潜在需要或感兴趣的旅游内容,不利于提升用户的使用体验。
发明内容
本申请实施例提供一种数据处理方法、装置、设备及存储介质,用于解决现有技术中存在的用户能够获取的旅游知识内容有限,参考价值弱的问题。
第一方面,本申请提供了一种数据处理方法,包括:
获取至少一个原始文本,其中,所述至少一个原始文本中的每一个原始文本包括至少一个地点信息;
确定所述至少一个原始文本中的每一个原始文本对应的至少一个旅游标签;
根据所述至少一个原始文本中的每一个原始文本的所述至少一个地点信息和所述至少一个旅游标签,确定不同地点信息与不同旅游标签之间的对应关系,得到知识图谱。
进一步地,确定所述至少一个原始文本中的每一个原始文本对应的至少一个旅游标签,包括:
确定所述至少一个原始文本中的每一个原始文本对应的至少一个预测标签;
根据预设的旅游标签库,确定与每一个原始文本的所述至少一个预测标签中的每一个预测标签相似度超过设定阈值的旅游标签,得到每一个原始文本对应的至少一个旅游标签。
进一步地,确定所述至少一个原始文本中的每一个原始文本对应的至少一个预测标签,包括:
对所述至少一个原始文本中的每一个原始文本进行分句处理,得到构成每一个原始文本的至少一个离散语句;
确定构成每一个原始文本的所述至少一个离散语句中的每一个离散语句的预测标签,得到每一个原始文本对应的至少一个旅游标签;
根据预设的旅游标签库,确定与每一个原始文本的所述至少一个预测标签中的每一个预测标签相似度超过设定阈值的旅游标签,得到每一个原始文本对应的至少一个旅游标签,包括:
根据预设的旅游标签库,确定与每一个离散语句的预测标签相似度超过设定阈值的旅游标签,得到每一个原始文本对应的至少一个旅游标签。
进一步地,确定构成每一个原始文本的所述至少一个离散语句中的每一个离散语句的预测标签,得到每一个原始文本对应的至少一个旅游标签,包括:
对构成每一个原始文本的所述至少一个离散语句中的每一个离散语句进行向量转化处理,得到构成每一个原始文本的至少一个句向量;
对所述旅游标签库中的每一个旅游标签进行向量转化处理,得到构成所述旅游标签库的至少一个旅游标签向量,其中,所述至少一个旅游标签向量中的每一个旅游标签向量的维度为V,V为不小于1的整数;
利用预设的神经网络模型,确定构成每一个原始文本的所述至少一个句向量中的每一个句向量对应的预测标签向量,得到每一个原始文本对应的至少一个预测标签向量,其中,所述预测标签向量与所述旅游标签向量具有相同的维度;
根据预设的旅游标签库,确定与每一个离散语句的预测标签相似度超过设定阈值的旅游标签,得到每一个原始文本的至少一个旅游标签,包括:
确定构成所述旅游标签库的所述至少一个旅游标签向量中的每一个旅游标签向量与构成每一个原始文本的所述至少一个预测标签向量中的每一个预测标签向量之间的相似度,并确定与所述预测标签向量相似度超过设定阈值的所述旅游标签向量所指示的旅游标签,构成所述预测标签向量对应的离散语句的旅游标签。
进一步地,确定所述旅游标签库的方法,包括:
对获取的至少一条原始语料进行分词处理,得到构成所述至少一条原始语料的至少一个词组;
确定所述至少一个词组中的每一个词组是否为旅游标签词组,得到构成所述至少一条原始语料的至少一个旅游标签词组,所述至少一个旅游标签词组所指示的至少一个旅游标签构成所述旅游标签库。
进一步地,对获取的至少一条原始语料进行分词处理,得到所述至少一条原始语料对应的至少一个词组,包括:
对获取的至少一条原始语料进行分词处理,得到构成所述至少一条原始语料的至少一个词汇;
确定至少一个所述词汇构成的词组的稳定值,将所述稳定值超过设定阈值的词组确定所述至少一条原始语料对应的词组,得到所述至少一条原始语料对应的至少一个词组。
进一步地,在得到所述知识图谱后,本方法还包括:
响应于获取的用户文本,确定所述用户文本的至少一个地点信息和/或至少一个旅游标签;
根据所述知识图谱,确定与所述用户文本的至少一个地点信息和/或至少一个旅游标签具有对应关系的其他地点信息和/或其他旅游标签并显示给用户。
第二方面,本申请提供一种数据处理装置,包括:
获取单元,用于获取至少一个原始文本,其中,所述至少一个原始文本中的每一个原始文本包括至少一个地点信息;
第一处理单元,用于确定所述至少一个原始文本中的每一个原始文本对应的至少一个旅游标签;
第二处理单元,用于根据所述至少一个原始文本中的每一个原始文本的所述至少一个地点信息和所述至少一个旅游标签,确定不同地点信息与不同旅游标签之间的对应关系,得到知识图谱。
进一步地,第一处理单元,包括:
第一处理子单元,用于确定所述至少一个原始文本中的每一个原始文本对应的至少一个预测标签;
第二处理子单元,用于根据预设的旅游标签库,确定与每一个原始文本的所述至少一个预测标签中的每一个预测标签相似度超过设定阈值的旅游标签,得到每一个原始文本对应的至少一个旅游标签。
进一步地,第一处理子单元,包括:
第一处理模块,对所述至少一个原始文本中的每一个原始文本进行分句处理,得到构成每一个原始文本的至少一个离散语句;
第二处理模块,用于确定构成每一个原始文本的所述至少一个离散语句中的每一个离散语句的预测标签,得到每一个原始文本对应的至少一个旅游标签;
第二处理子单元,包括:
第三处理模块,用于根据预设的旅游标签库,确定与每一个离散语句的预测标签相似度超过设定阈值的旅游标签,得到每一个原始文本对应的至少一个旅游标签。
进一步地,第二处理模块,包括:
第一处理子模块,用于对对构成每一个原始文本的所述至少一个离散语句中的每一个离散语句进行向量转化处理,得到构成每一个原始文本的至少一个句向量;
第二处理子模块,用于对所述旅游标签库中的每一个旅游标签进行向量转化处理,得到构成所述旅游标签库的至少一个旅游标签向量,其中,所述至少一个旅游标签向量中的每一个旅游标签向量的维度为V,V为不小于1的整数;
第三处理子模块,用于利用预设的神经网络模型,确定构成每一个原始文本的所述至少一个句向量中的每一个句向量对应的预测标签向量,得到每一个原始文本对应的至少一个预测标签向量,其中,所述预测标签向量与所述旅游标签向量具有相同的维度;
第三处理模块,包括:
第四处理子模块,用于确定构成所述旅游标签库的所述至少一个旅游标签向量中的每一个旅游标签向量与构成每一个原始文本的所述至少一个预测标签向量中的每一个预测标签向量之间的相似度,并确定与所述预测标签向量相似度超过设定阈值的所述旅游标签向量所指示的旅游标签,构成所述预测标签向量对应的离散语句的旅游标签。
进一步地,本装置包括第三处理单元,用于构建所述旅游标签库,第三处理单元,包括:
第三处理子单元,用于对获取的至少一条原始语料进行分词处理,得到构成所述至少一条原始语料的至少一个词组;
第四处理子单元,用于确定所述至少一个词组中的每一个词组是否为旅游标签词组,得到构成所述至少一条原始语料的至少一个旅游标签词组,所述至少一个旅游标签词组所指示的至少一个旅游标签构成所述旅游标签库。
进一步地,第三处理子单元,包括:
第四处理模块,用于对获取的至少一条原始语料进行分词处理,得到构成所述至少一条原始语料的至少一个词汇;
第五处理模块,用于确定至少一个所述词汇构成的词组的稳定值,将所述稳定值超过设定阈值的词组确定所述至少一条原始语料对应的词组,得到所述至少一条原始语料对应的至少一个词组。
进一步地,本装置还包括第四处理单元,第四处理单元包括:
第五处理子单元,用于响应于获取的用户文本,确定所述用户文本的至少一个地点信息和/或至少一个旅游标签;
第六处理子单元,用于根据所述知识图谱,确定与所述用户文本的至少一个地点信息和/或至少一个旅游标签具有对应关系的其他地点信息和/或其他旅游标签并显示给用户。
第三方面,本申请提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面中任一项所述的方法。
第四方面,本申请提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行第一方面中任一项所述的方法。
本申请提供一种数据处理方法、装置、设备及存储介质,其中,方法包括获取至少一个原始文本,其中,所述至少一个原始文本中的每一个原始文本包括至少一个地点信息;确定所述至少一个原始文本中的每一个原始文本对应的至少一个旅游标签;根据所述至少一个原始文本中的每一个原始文本的所述至少一个地点信息和所述至少一个旅游标签,确定不同地点信息与不同旅游标签之间的对应关系,得到知识图谱。知识图谱中描述了不同地点信息与不同旅游标签之间的对应关系,能够为用户提供丰富的旅游知识,参考价值大,实用性强。
上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是本申请实施例提供的一种数据处理方法的流程示意图;
图1a为本实施例提供的同一旅游标签对应多个地点信息的示意图;
图1b为本实施例提供的原始文本的地点信息与旅游标签之间的对应关系示意图;
图2是本申请实施例提供的又一种数据处理方法的流程示意图;
图3是本申请实施例提供的一种数据处理装置的结构示意图;
图4是本申请实施例提供的又一种数据处理装置的结构示意图;
图5是本申请实施例提供的一种数据处理设备的结构示意图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本申请涉及的名词解释:
词向量:一种多维实数向量,向量中包括了自然语言中的语义和语法关系。词向量之间余弦距离的大小代表了词语之间关系的远近,词向量的加减运算是在计算机中进行的"遣词造句"。
知识图谱:又被称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,通过利用可视化技术来描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。
语料:即语言材料,是语言学研究的内容,语料是构成语料库的基本单元。
文本:具有完整、系统含义的一个句子或多个句子的组合。
本申请的应用场景:随着互联网技术的迅速发展,用户通过互联网获取旅游知识和交流旅游心得的现象变得非常普及。相关技术中,用户通过互联网查阅其他用户发表的游记、日志、微博等文本内容,通过文本内容中描述的景点信息或旅游主题等信息来获取其需要的旅游知识。例如,用户通过查阅其他用户发表的游记,了解其感兴趣景点的基本信息,或者用户想要进行周末自驾游,通过查看其他用户公开的旅游日志,评估适合周末自驾游的地点及路线。
然而,用户只能通过其查阅的有限的文本内容来获取需要的旅游知识,用户能够获取的旅游知识内容有限,参考价值弱,且用户无法获取为其潜在需要或感兴趣的旅游内容,不利于提升用户的使用体验。
本申请提供的数据处理方法、装置、设备及存储介质,旨在解决上述技术问题。
图1为本申请实施例提供的一种数据处理方法,如图1所示,该方法包括:
步骤101、获取至少一个原始文本,其中,至少一个原始文本中的每一个原始文本包括至少一个地点信息。
在本实施例中,具体的,本实施例的执行主体为终端设备或者设置在终端设备上的服务器、或者控制器、或者其他可以执行本实施例的装置或设备,本实施例以执行主体为设置在终端设备上的应用软件为例进行说明。
获取至少一个原始文本,原始文本可以是游记、日志、攻略、微博等各种形式的文本数据。获取的至少一个原始文本为旅游相关的文本数据,其中,每一个原始文本包括至少一个地点信息,示例性的,获取用户在应用中公开的游记,游记中记录了北京的长城、故宫、颐和园等地的旅游记录,其中,长城、故宫、颐和园、北京均为地点信息。
步骤102、确定至少一个原始文本中的每一个原始文本对应的至少一个旅游标签。
在本实施例中,具体的,获取的至少一个原始文本中的每一个原始文本具有对应的旅游标签,根据预设的旅游标签库,确定获取的每一个原始文本的旅游标签,旅游标签描述了原始文本的旅游主题、旅游形式、旅游特点、旅游目的等信息,示例性的,旅游标签包括避暑、亲子游、大冒险、百元吃好、灯光秀、主题咖、冷门好店等,同一个旅游标签可能对应多个地点信息,同一地点信息也可能对应多个旅游标签,示例性的,图1a为本实施例提供的同一旅游标签对应多个地点信息的示意图,如图1a所示,“避暑”这一旅游标签所对应的地点信息包括草原湖、西庸城堡、白塔公园、雾灵湖等。
步骤103、根据至少一个原始文本中的每一个原始文本的至少一个地点信息和至少一个旅游标签,确定不同地点信息与不同旅游标签之间的对应关系,得到知识图谱。
在本实施例中,具体的,任意一个原始文本的至少一个地点信息和至少一个旅游标签具有对应关系,当某个原始文本包括一个地点信息时,该原始文本的至少一个旅游标签均与该地点信息对应;当某个原始文本包括多个地点信息时,由包含某个地点信息的文本段落确定出的旅游标签与该地点信息对应。示例性的,图1b为本实施例提供的原始文本的地点信息与旅游标签之间的对应关系示意图,如图1b所示,原始文本m包括四个地点信息,其中,由包含地点信息1的文本段落确定出的旅游标签包括旅游标签1、2、3,地点信息1与旅游标签1、2、3具有对应关系,地点信息2、3与旅游标签3具有对应关系,当用户选择旅游标签3所对应的旅游内容时,可向该用户推荐地点信息1、2、3。在确定出每一个原始文本的至少一个地点信息和至少一个旅游标签后,根据不同地点信息与不同旅游标签之间的对应关系,得到由地点信息、旅游标签及其对应关系构成的知识图谱。
本实施例通过获取至少一个原始文本,其中,至少一个原始文本中的每一个原始文本包括至少一个地点信息;确定至少一个原始文本中的每一个原始文本对应的至少一个旅游标签;根据至少一个原始文本中的每一个原始文本的至少一个地点信息和至少一个旅游标签,确定不同地点信息与不同旅游标签之间的对应关系,得到知识图谱。利用获取的至少一个原始文本的每一个原始文本的地点信息和旅游标签,得到由不同地点信息与不同旅游标签构成的知识图谱,知识图谱中不同地点信息与不同旅游标签之间的对应关系能够为用户提供丰富的旅游知识,知识图谱参考价值大,实用性强。
图2为本申请实施例提供的另一种数据处理方法的流程示意图,如图2所示,该方法包括:
步骤201、获取至少一个原始文本,其中,至少一个原始文本中的每一个原始文本包括至少一个地点信息。
在本实施例中,具体的,本步骤可以参见图1的步骤101,不再赘述。
步骤202、确定至少一个原始文本中的每一个原始文本对应的至少一个预测标签。
在本实施例中,具体的,步骤202包括确定至少一个原始文本中的每一个原始文本对应的至少一个预测标签;根据预设的旅游标签库,确定与每一个原始文本的至少一个预测标签中的每一个预测标签相似度超过设定阈值的旅游标签,得到每一个原始文本对应的至少一个旅游标签。
其中,确定至少一个原始文本中的每一个原始文本对应的至少一个预测标签,包括:对至少一个原始文本中的每一个原始文本进行分句处理,得到构成每一个原始文本的至少一个离散语句;确定构成每一个原始文本的至少一个离散语句中的每一个离散语句的预测标签,得到每一个原始文本对应的至少一个预测标签。根据预设的旅游标签库,确定与每一个原始文本的至少一个预测标签中的每一个预测标签相似度超过设定阈值的旅游标签,得到每一个原始文本对应的至少一个旅游标签,包括:根据预设的旅游标签库,确定与每一个离散语句的预测标签相似度超过设定阈值的旅游标签,得到每一个原始文本对应的至少一个旅游标签。
按照标点符号,将获取的至少一个原始文本分割成较短的句子或段落,得到构成每一个原始文本的至少一个离散语句。确定每一个原始文本的至少一个离散语句中的每一个离散语句的预测标签,得到每一个原始文本对应的至少一个预测标签,包括:对构成每一个原始文本的至少一个离散语句中的每一个离散语句进行向量转化处理,得到构成每一个原始文本的至少一个句向量;对旅游标签库中的每一个旅游标签进行向量转化处理,得到构成旅游标签库的至少一个旅游标签向量,其中,至少一个旅游标签向量中的每一个旅游标签向量的维度为V,V为不小于1的整数;利用预设的神经网络模型,确定构成每一个原始文本的至少一个句向量中的每一个句向量对应的预测标签向量,得到每一个原始文本对应的至少一个预测标签向量,其中,预测标签向量与旅游标签向量具有相同的维度。
在得到构成每一个原始文本的至少一个离散语句后,对至少一个离散语句中的每一个离散语句进行向量转换处理,具体的,对每一个离散语句进行分词处理,得到构成每一个离散语句的至少一个词组,示例性的,对离散语句“我们在草原上骑马看日出”进行分词处理,得到构成离散语句的“我们、在、草原上、骑马、看日出”的离散词组。在得到构成每一个离散语句的至少一个词组后,对每一个词组进行向量转换处理,得到构成每一个离散语句的至少一个词向量,其中,至少一个词向量的维度相同。通过将词组转换成多维实数向量,具有多个维度的词向量能够用于表达词组的多维信息,例如,词向量的其中一个维度能够用于表达词组的位置信息,词向量是一种将词组可视化的表示方式。对构成每一个离散语句的至少一个词向量进行加和求平均,或者对构成每一个离散语句的至少一个词向量进行权重加和,得到每一个离散语句对应的句向量。示例性的,构成每一个散语句的至少一个词向量的维度均为V1维,离散语句“我们在草原上骑马看日出”对应的句向量:[V1维(我们)+V1维(在)+V1维(草原上)+V1维(骑马)+V1维(看)+V1维(日出)]/6,或者,V1维(我们)*m1+V1维(在)*m2+V1维(草原上)*m3+V1维(骑马)*m4+V1维(看)*m5+V1维(日出)*m6,其中,m1、m2、m3、m4、m5、m6分别为“我们、在、草原上、骑马、看、日出”六个词组对应的权重值。
对旅游标签库中的每一个旅游标签进行向量转化处理,将旅游标签库中构成每一个旅游标签的词组转换成词向量,得到构成旅游标签库的至少一个旅游标签向量,其中,至少一个旅游标签向量中的每一个旅游标签向量的维度为V,V为不小于1的整数。向量转化处理的思想包括利用任一词的周边词来表示该词的含义,转换方法包括基于统计的方法和基于语言模型(language model)的方法,基于统计的方法包括共现矩阵法、奇异值分解法等,基于语言模型的方法包括Continuous Bag-of-Word法等,向量转化处理可采用现有技术实现,本实施例在此不做赘述。
利用预设的神经网络模型,确定构成每一个原始文本的至少一个句向量对应的预测标签向量,得到每一个原始文本对应的至少一个预测标签向量,其中,预测标签向量与旅游标签向量具有相同的维度。一个句向量可能不具有对应的预测标签向量,也可能对应一个或者多个预测标签向量,即在神经网络模型中输入某个句向量时,其输出的结果可能是一个或者多个分类,一个或者多个分类构成输入的句向量的预测标签向量,区别于二分法或者激活函数,本实施例中利用神经网络模型得到的分类结果不具有唯一性。
本实施例中利用到的神经网络模型的训练方法包括将一定数量的句向量X作为输入样本,输入原始神经网络模型,拟合输出每一个句向量对应的标签向量Y,标签向量Y不是明确所属类别,也不具有明确概率值。通过调整原始神经网络模型的隐藏层深度、参数、激活函数等,使神经网络模型输出的标签向量Y的维度值与旅游标签库中的旅游标签向量的维度值相同。在经一定数量的样本训练之后的神经网络模型,相当于一个具有泛化能力的函数,当把任一句向量输入神经网络模型后,得到与旅游标签向量具有相同维度值的预测标签向量。
步骤203、根据预设的旅游标签库,确定与每一个原始文本的至少一个预测标签中的每一个预测标签相似度超过设定阈值的旅游标签,得到每一个原始文本的至少一个旅游标签。
在本实施例中,具体的,根据预设的旅游标签库,确定与每一个离散语句的预测标签相似度超过设定阈值的旅游标签,构成离散语句的旅游标签,具体的,确定构成旅游标签库的至少一个旅游标签向量中的每一个旅游标签向量与构成每一个原始文本的至少一个预测标签向量中的每一个预测标签向量之间的相似度,并确定与预测标签向量相似度超过设定阈值的旅游标签向量所指示的旅游标签,构成预测标签向量对应的离散语句的旅游标签。
在确定出每一个原始文本对应的至少一个预测标签向量后,确定与每一个预测标签向量相似度超过设定阈值的旅游标签向量,并将相似度超过设定阈值的旅游标签向量所指示的旅游标签,作为预测标签向量对应的离散语句的旅游标签。由于不同词向量之间的余弦距离的大小可表示词语之间关系的远近,因此可以确定与预测标签向量的余弦距离超过设定阈值的旅游标签向量,将余弦距离超过设定阈值的旅游标签向量所指示的旅游标签,作为预测标签向量对应的离散语句的旅游标签。
由于一个离散语句可能对应多个旅游标签,示例性的,离散语句:我们在草原上骑马看日出,对应的旅游标签包括:骑马、看日出,因此本方法没有考虑分类概率的限制,而是计算神经网络模型输出的预测标签向量与旅游标签向量的相似度,来确定构成原始文本的离散语句的旅游标签,不会受到分类概率总和为一的限制,能够避免只能将构成原始文本的离散语句划分为一个旅游标签的情况。
步骤204、根据至少一个原始文本中的每一个原始文本的至少一个地点信息和至少一个旅游标签,确定不同地点信息与不同旅游标签之间的对应关系,得到知识图谱。
在本实施例中,具体的,在确定出每一个原始文本对应的至少一个旅游标签后,结合每一个原始文本的至少一个地点信息,建立起不同地点信息与不同旅游标签之间的对应关系网,得到知识图谱。根据知识图谱可以确定出与某个地点信息对应的旅游标签,或者根据对应于同一旅游标签的不同地点信息,确定出与某个地点信息相似的其他地点信息,知识图谱能够为用户提供网络化的旅游知识,旅游知识丰富,参考价值大。
在得到知识图谱后,利用知识图谱为用户提供其需要的旅游知识或为用户推荐其需要或者可能感兴趣的地点信息或旅游主题、旅游模式等信息。响应于获取的用户文本,确定用户文本的至少一个地点信息和/或至少一个旅游标签;根据知识图谱,确定与用户文本的至少一个地点信息和/或至少一个旅游标签具有对应关系的其他地点信息和/或其他旅游标签并显示给用户。获取用户输入的用户文本,用户文本可以是用户提问的问题、发表的微博、公开的日志、发表的游记等任何一种形式的文本内容,确定用户文本中的地点信息和/或旅游标签,其中,确定用户文本的旅游标签的方法同上述步骤描述的确定原始文本的旅游标签的方法,在此不做赘述。在确定出用户文本的至少一个地点信息和/或至少一个旅游标签后,根据知识图谱,确定与用户文本的至少一个地点信息和/或至少一个旅游标签具有对应关系的其他地点信息和/或其他旅游标签,实现了根据获取的用户文本,确定出与用户文本相关的其他地点信息和/或其他旅游标签,向用户显示其他地点信息和/或其他旅游标签,能够实现为用户推荐其他相关的地点信息和/或旅游模式、旅游主题等信息,用户能够获取到丰富的旅游知识,并且用户获取的旅游知识具有较高的参考价值,能够为用户的个性化旅游规划提供有效的解决方案,有利于提高知识图谱在个性化旅游规划中的应用程度。
在本实施例中,确定旅游标签库的方法,包括:对获取的至少一条原始语料进行分词处理,得到构成至少一条原始语料的至少一个词组;确定至少一个词组中的每一个词组是否为旅游标签词组,得到构成至少一条原始语料的至少一个旅游标签词组,至少一个旅游标签词组所指示的至少一个旅游标签构成旅游标签库。具体的,对获取的至少一条原始语料进行分词处理,得到构成至少一条原始语料的至少一个词汇;确定至少一个词汇构成的词组的稳定值,将稳定值超过设定阈值的词组确定至少一条原始语料对应的词组,得到至少一条原始语料对应的至少一个词组。
在根据预设的词库,对获取的至少一条原始语料进行分词处理时,为保证分词处理的准确性,不因词库的词汇数量不足或与当前语义场景不适应,造成分词不恰当,出现一个词组被拆分成多个词组的问题,同时也为了对词库进行扩充,确定至少一个词汇构成的词组的稳定值,将稳定值超过设定阈值的词组确定至少一条原始语料对应的词组,得到至少一条原始语料对应的至少一个词组。
确定至少一个词汇构成的词组的稳定值的方法包括:对于任一词汇,确定该任一词汇的左邻字l1、l2、…ln和右邻字r1、r2、…rn,左邻字为该词汇左边可能出现的词汇,右邻字为该词汇右边可能出现的词汇,示例性的,对于“电影”这一词汇,左邻字包括在、看、讲等词汇,右邻字包括院、节目、视频词汇。确定该任一词汇的左邻字与右邻字的信息熵,在左邻字与右邻字的信息熵中,选取最小信息熵对应的词汇为可选词汇,同时计算该任一词汇与可选词汇间的互信息,以及计算该任一词汇与可选词汇构成的词组的词频,对计算得到的信息熵、互信息、词频进行求积运算,将求积运算得到的数值作为该任一词汇与可选词汇构成的词组的稳定值,当稳定值大于设定阈值时,将该词组确定为原始语料对应的词组,利用本实施例方法得到至少一条原始语料对应的至少一个词组。利用该种方法在保证分词准确性的基础上,能够有效提高词库的丰富性。
利用预设的神经网络模型,确定至少一个词组中的每一个词组是否为旅游标签词组,得到构成至少一条原始语料的至少一个旅游标签词组,至少一个旅游标签词组所指示的至少一个旅游标签构成旅游标签库。具体的,将构成至少一条原始语料的每一个词组对应的词向量作为输入数据,输入至神经网络模型中,神经网络模型输出词向量对应的得分值,得分值大于预设阈值时,确定该词组为旅游标签词组,利用本实施例方法得到至少一条原始语料对应的至少一个旅游标签词组,每一个旅游标签词组所指示的旅游标签构成旅游标签库。
训练上述神经网络模型的方法包括对至少一条原始语料进行分词处理,得到至少一条原始语料对应的至少一个离散词组。根据预先确定出的已知旅游标签,在至少一个离散词组中人为确定出n个已知旅游标签词组和n个非旅游标签词组;对确定出的n个已知旅游标签词组和n个非旅游标签词组进行向量转化处理,得到n个已知旅游标签向量和n个非旅游标签向量;将n个已知旅游标签向量和n个非旅游标签向量分别输入原始神经网络模型中,进行原始神经网络模型的训练,得到可用于判断作为输入的词组向量是否为旅游标签向量,实现了语句或文本的旅游标签识别。
本实施例通过获取至少一个原始文本,其中,至少一个原始文本中的每一个原始文本包括至少一个地点信息;确定至少一个原始文本中的每一个原始文本对应的至少一个预测标签;根据预设的旅游标签库,确定与每一个原始文本的至少一个预测标签中的每一个预测标签相似度超过设定阈值的旅游标签,得到每一个原始文本的至少一个旅游标签;根据至少一个原始文本中的每一个原始文本的至少一个地点信息和至少一个旅游标签,确定不同地点信息与不同旅游标签之间的对应关系,得到知识图谱。知识图谱中描述了不同地点信息与不同旅游标签之间网络形式的对应关系,能够为用户提供丰富的旅游知识,参考价值高,实用性良好;利用知识图谱能够挖掘出用户可能感兴趣或者潜在需要的旅游内容,能够为用户进行个性化旅游规划提供有效的解决方案,能够为用户提供符合其偏好的个性化旅游方案,有利于扩展知识图谱在个性化旅游路线规划中的应用,有利于提升用户体验。
图3为本申请实施例提供的一种数据处理装置的结构示意图,如图3所示,该装置包括:
获取单元1,用于获取至少一个原始文本,其中,至少一个原始文本中的每一个原始文本包括至少一个地点信息;
第一处理单元2,用于确定至少一个原始文本中的每一个原始文本对应的至少一个旅游标签;
第二处理单元3,用于根据至少一个原始文本中的每一个原始文本的至少一个地点信息和至少一个旅游标签,确定不同地点信息与不同旅游标签之间的对应关系,得到知识图谱。
本实施例通过获取至少一个原始文本,其中,至少一个原始文本中的每一个原始文本包括至少一个地点信息;确定至少一个原始文本中的每一个原始文本对应的至少一个旅游标签;根据至少一个原始文本中的每一个原始文本的至少一个地点信息和至少一个旅游标签,确定不同地点信息与不同旅游标签之间的对应关系,得到知识图谱。利用获取的至少一个原始文本的每一个原始文本的地点信息和旅游标签,得到由不同地点信息与不同旅游标签构成的知识图谱,知识图谱中不同地点信息与不同旅游标签之间的对应关系能够为用户提供丰富的旅游知识,知识图谱参考价值大,实用性强。
图4为本申请实施例提供的另一种数据处理装置的结构示意图,在图3的基础上,如图4所示,
第一处理单元2,包括:
第一处理子单元21,用于确定至少一个原始文本中的每一个原始文本对应的至少一个预测标签;
第二处理子单元22,用于根据预设的旅游标签库,确定与每一个原始文本的至少一个预测标签中的每一个预测标签相似度超过设定阈值的旅游标签,得到每一个原始文本对应的至少一个旅游标签。
第一处理子单元21,包括:
第一处理模块211,对至少一个原始文本中的每一个原始文本进行分句处理,得到构成每一个原始文本的至少一个离散语句;
第二处理模块212,用于确定构成每一个原始文本的至少一个离散语句中的每一个离散语句的预测标签,得到每一个原始文本对应的至少一个预测标签;
第二处理子单元22,包括:
第三处理模块221,用于根据预设的旅游标签库,确定与每一个离散语句的预测标签相似度超过设定阈值的旅游标签,得到每一个原始文本对应的至少一个旅游标签。
第二处理模块212,包括:
第一处理子模块2121,用于对对构成每一个原始文本的至少一个离散语句中的每一个离散语句进行向量转化处理,得到构成每一个原始文本的至少一个句向量;
第二处理子模块2122,用于对旅游标签库中的每一个旅游标签进行向量转化处理,得到构成旅游标签库的至少一个旅游标签向量,其中,至少一个旅游标签向量中的每一个旅游标签向量的维度为V,V为不小于1的整数;
第三处理子模块2123,用于利用预设的神经网络模型,确定构成每一个原始文本的至少一个句向量中的每一个句向量对应的预测标签向量,得到每一个原始文本对应的至少一个预测标签向量,其中,预测标签向量与旅游标签向量具有相同的维度;
第三处理模块221,包括:
第四处理子模块2211,用于确定构成旅游标签库的至少一个旅游标签向量中的每一个旅游标签向量与构成每一个原始文本的至少一个预测标签向量中的每一个预测标签向量之间的相似度,并确定与预测标签向量相似度超过设定阈值的旅游标签向量所指示的旅游标签,构成预测标签向量对应的离散语句的旅游标签。
本装置包括第三处理单元4,用于构建旅游标签库,第三处理单元4,包括:
第三处理子单元41,用于对获取的至少一条原始语料进行分词处理,得到构成至少一条原始语料的至少一个词组;
第四处理子单元42,用于确定至少一个词组中的每一个词组是否为旅游标签词组,得到构成至少一条原始语料的至少一个旅游标签词组,至少一个旅游标签词组所指示的至少一个旅游标签构成旅游标签库。
第三处理子单元41,包括:
第四处理模块411,用于对获取的至少一条原始语料进行分词处理,得到构成至少一条原始语料的至少一个词汇;
第五处理模块412,用于确定至少一个词汇构成的词组的稳定值,将稳定值超过设定阈值的词组确定至少一条原始语料对应的词组,得到至少一条原始语料对应的至少一个词组。
本装置还包括第四处理单元5,第四处理单元5包括:
第五处理子单元51,用于响应于获取的用户文本,确定用户文本的至少一个地点信息和/或至少一个旅游标签;
第六处理子单元52,用于根据知识图谱,确定与用户文本的至少一个地点信息和/或至少一个旅游标签具有对应关系的其他地点信息和/或其他旅游标签并显示给用户。
实施例通过获取至少一个原始文本,其中,至少一个原始文本中的每一个原始文本包括至少一个地点信息;确定至少一个原始文本中的每一个原始文本对应的至少一个预测标签;根据预设的旅游标签库,确定与每一个原始文本的至少一个预测标签中的每一个预测标签相似度超过设定阈值的旅游标签,得到每一个原始文本的至少一个旅游标签;根据至少一个原始文本中的每一个原始文本的至少一个地点信息和至少一个旅游标签,确定不同地点信息与不同旅游标签之间的对应关系,得到知识图谱。知识图谱中描述了不同地点信息与不同旅游标签之间网络形式的对应关系,能够为用户提供丰富的旅游知识,参考价值高,实用性良好;利用知识图谱能够挖掘出用户可能感兴趣或者潜在需要的旅游内容,能够为用户进行个性化旅游规划提供有效的解决方案,能够为用户提供符合其偏好的个性化旅游方案,有利于扩展知识图谱在个性化旅游路线规划中的应用,有利于提升用户体验。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图5所示,是根据本申请实施例的数据处理的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图5所示,该电子设备包括:一个或多个处理器501、存储器502,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图5中以一个处理器501为例。
存储器502即为本申请所提供的非瞬时计算机可读存储介质。其中,存储器存储有可由至少一个处理器执行的指令,以使至少一个处理器执行本申请所提供的数据处理的方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的数据处理的方法。
存储器502作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的数据处理的方法对应的程序指令/模块(例如,附图3所示的获取单元1、第一处理单元2和第二处理单元3)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的数据处理的方法。
存储器502可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据数据处理的电子设备的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器502可选包括相对于处理器501远程设置的存储器,这些远程存储器可以通过网络连接至数据处理的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
数据处理的方法的电子设备还可以包括:输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接,图5中以通过总线连接为例。
输入装置503可接收输入的数字或字符信息,以及产生与数据处理的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
本实施例提供的数据处理系统的原理和有益效果,参考图1-图2中的数据处理方法的原理和有益效果,不再赘述。
在本申请实施例中,上述各实施例之间可以相互参考和借鉴,相同或相似的步骤以及名词均不再一一赘述。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (16)
1.一种数据处理方法,其特征在于,包括:
获取至少一个原始文本,其中,所述至少一个原始文本中的每一个原始文本包括至少一个地点信息;
确定所述至少一个原始文本中的每一个原始文本对应的至少一个旅游标签;
根据所述至少一个原始文本中的每一个原始文本的所述至少一个地点信息和所述至少一个旅游标签,确定不同地点信息与不同旅游标签之间的对应关系,得到知识图谱。
2.根据权利要求1所述的方法,其特征在于,确定所述至少一个原始文本中的每一个原始文本对应的至少一个旅游标签,包括:
确定所述至少一个原始文本中的每一个原始文本对应的至少一个预测标签;
根据预设的旅游标签库,确定与每一个原始文本的所述至少一个预测标签中的每一个预测标签相似度超过设定阈值的旅游标签,得到每一个原始文本对应的至少一个旅游标签。
3.根据权利要求2所述的方法,其特征在于,确定所述至少一个原始文本中的每一个原始文本对应的至少一个预测标签,包括:
对所述至少一个原始文本中的每一个原始文本进行分句处理,得到构成每一个原始文本的至少一个离散语句;
确定构成每一个原始文本的所述至少一个离散语句中的每一个离散语句的预测标签,得到每一个原始文本对应的至少一个预测标签;
根据预设的旅游标签库,确定与每一个原始文本的所述至少一个预测标签中的每一个预测标签相似度超过设定阈值的旅游标签,得到每一个原始文本对应的至少一个旅游标签,包括:
根据预设的旅游标签库,确定与每一个离散语句的预测标签相似度超过设定阈值的旅游标签,得到每一个原始文本对应的至少一个旅游标签。
4.根据权利要求3所述的方法,其特征在于,确定构成每一个原始文本的所述至少一个离散语句中的每一个离散语句的预测标签,得到每一个原始文本对应的至少一个预测标签,包括:
对构成每一个原始文本的所述至少一个离散语句中的每一个离散语句进行向量转化处理,得到构成每一个原始文本的至少一个句向量;
对所述旅游标签库中的每一个旅游标签进行向量转化处理,得到构成所述旅游标签库的至少一个旅游标签向量,其中,所述至少一个旅游标签向量中的每一个旅游标签向量的维度为V,V为不小于1的整数;
利用预设的神经网络模型,确定构成每一个原始文本的所述至少一个句向量中的每一个句向量对应的预测标签向量,得到每一个原始文本对应的至少一个预测标签向量,其中,所述预测标签向量与所述旅游标签向量具有相同的维度;
根据预设的旅游标签库,确定与每一个离散语句的预测标签相似度超过设定阈值的旅游标签,得到每一个原始文本的至少一个旅游标签,包括:
确定构成所述旅游标签库的所述至少一个旅游标签向量中的每一个旅游标签向量与构成每一个原始文本的所述至少一个预测标签向量中的每一个预测标签向量之间的相似度,并确定与所述预测标签向量相似度超过设定阈值的所述旅游标签向量所指示的旅游标签,构成所述预测标签向量对应的离散语句的旅游标签。
5.根据权利要求2所述的方法,其特征在于,确定所述旅游标签库的方法,包括:
对获取的至少一条原始语料进行分词处理,得到构成所述至少一条原始语料的至少一个词组;
确定所述至少一个词组中的每一个词组是否为旅游标签词组,得到构成所述至少一条原始语料的至少一个旅游标签词组,所述至少一个旅游标签词组所指示的至少一个旅游标签构成所述旅游标签库。
6.根据权利要求5所述的方法,其特征在于,对获取的至少一条原始语料进行分词处理,得到所述至少一条原始语料对应的至少一个词组,包括:
对获取的至少一条原始语料进行分词处理,得到构成所述至少一条原始语料的至少一个词汇;
确定至少一个所述词汇构成的词组的稳定值,将所述稳定值超过设定阈值的词组确定所述至少一条原始语料对应的词组,得到所述至少一条原始语料对应的至少一个词组。
7.根据权利要求1-6任一项所述的方法,其特征在于,在得到所述知识图谱后,本方法还包括:
响应于获取的用户文本,确定所述用户文本的至少一个地点信息和/或至少一个旅游标签;
根据所述知识图谱,确定与所述用户文本的至少一个地点信息和/或至少一个旅游标签具有对应关系的其他地点信息和/或其他旅游标签并显示给用户。
8.一种数据处理装置,其特征在于,包括:
获取单元,用于获取至少一个原始文本,其中,所述至少一个原始文本中的每一个原始文本包括至少一个地点信息;
第一处理单元,用于确定所述至少一个原始文本中的每一个原始文本对应的至少一个旅游标签;
第二处理单元,用于根据所述至少一个原始文本中的每一个原始文本的所述至少一个地点信息和所述至少一个旅游标签,确定不同地点信息与不同旅游标签之间的对应关系,得到知识图谱。
9.根据权利要求8所述的装置,其特征在于,第一处理单元,包括:
第一处理子单元,用于确定所述至少一个原始文本中的每一个原始文本对应的至少一个预测标签;
第二处理子单元,用于根据预设的旅游标签库,确定与每一个原始文本的所述至少一个预测标签中的每一个预测标签相似度超过设定阈值的旅游标签,得到每一个原始文本对应的至少一个旅游标签。
10.根据权利要求9所述的装置,其特征在于,第一处理子单元,包括:
第一处理模块,对所述至少一个原始文本中的每一个原始文本进行分句处理,得到构成每一个原始文本的至少一个离散语句;
第二处理模块,用于确定构成每一个原始文本的所述至少一个离散语句中的每一个离散语句的预测标签,得到每一个原始文本对应的至少一个预测标签;
第二处理子单元,包括:
第三处理模块,用于根据预设的旅游标签库,确定与每一个离散语句的预测标签相似度超过设定阈值的旅游标签,得到每一个原始文本对应的至少一个旅游标签。
11.根据权利要求10所述的装置,其特征在于,第二处理模块,包括:
第一处理子模块,用于对对构成每一个原始文本的所述至少一个离散语句中的每一个离散语句进行向量转化处理,得到构成每一个原始文本的至少一个句向量;
第二处理子模块,用于对所述旅游标签库中的每一个旅游标签进行向量转化处理,得到构成所述旅游标签库的至少一个旅游标签向量,其中,所述至少一个旅游标签向量中的每一个旅游标签向量的维度为V,V为不小于1的整数;
第三处理子模块,用于利用预设的神经网络模型,确定构成每一个原始文本的所述至少一个句向量中的每一个句向量对应的预测标签向量,得到每一个原始文本对应的至少一个预测标签向量,其中,所述预测标签向量与所述旅游标签向量具有相同的维度;
第三处理模块,包括:
第四处理子模块,用于确定构成所述旅游标签库的所述至少一个旅游标签向量中的每一个旅游标签向量与构成每一个原始文本的所述至少一个预测标签向量中的每一个预测标签向量之间的相似度,并确定与所述预测标签向量相似度超过设定阈值的所述旅游标签向量所指示的旅游标签,构成所述预测标签向量对应的离散语句的旅游标签。
12.根据权利要求9所述的装置,其特征在于,本装置包括第三处理单元,用于构建所述旅游标签库,第三处理单元,包括:
第三处理子单元,用于对获取的至少一条原始语料进行分词处理,得到构成所述至少一条原始语料的至少一个词组;
第四处理子单元,用于确定所述至少一个词组中的每一个词组是否为旅游标签词组,得到构成所述至少一条原始语料的至少一个旅游标签词组,所述至少一个旅游标签词组所指示的至少一个旅游标签构成所述旅游标签库。
13.根据权利要求12所述的装置,其特征在于,第三处理子单元,包括:
第四处理模块,用于对获取的至少一条原始语料进行分词处理,得到构成所述至少一条原始语料的至少一个词汇;
第五处理模块,用于确定至少一个所述词汇构成的词组的稳定值,将所述稳定值超过设定阈值的词组确定所述至少一条原始语料对应的词组,得到所述至少一条原始语料对应的至少一个词组。
14.根据权利要求8-13任一项所述的装置,其特征在于,本装置还包括第四处理单元,第四处理单元包括:
第五处理子单元,用于响应于获取的用户文本,确定所述用户文本的至少一个地点信息和/或至少一个旅游标签;
第六处理子单元,用于根据所述知识图谱,确定与所述用户文本的至少一个地点信息和/或至少一个旅游标签具有对应关系的其他地点信息和/或其他旅游标签并显示给用户。
15.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911101348.9A CN110851569B (zh) | 2019-11-12 | 2019-11-12 | 数据处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911101348.9A CN110851569B (zh) | 2019-11-12 | 2019-11-12 | 数据处理方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110851569A true CN110851569A (zh) | 2020-02-28 |
CN110851569B CN110851569B (zh) | 2022-11-29 |
Family
ID=69600523
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911101348.9A Active CN110851569B (zh) | 2019-11-12 | 2019-11-12 | 数据处理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110851569B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104657466A (zh) * | 2015-02-11 | 2015-05-27 | 厦门美柚信息科技有限公司 | 一种基于论坛帖子特征的用户兴趣识别方法及装置 |
CN105512687A (zh) * | 2015-12-15 | 2016-04-20 | 北京锐安科技有限公司 | 训练情感分类模型和文本情感极性分析的方法及系统 |
CN106777274A (zh) * | 2016-06-16 | 2017-05-31 | 北京理工大学 | 一种中文旅游领域知识图谱构建方法及系统 |
CN106874275A (zh) * | 2015-12-10 | 2017-06-20 | 北京新媒传信科技有限公司 | 构建情感词典的方法及装置 |
CN108108346A (zh) * | 2016-11-25 | 2018-06-01 | 广东亿迅科技有限公司 | 文档的主题特征词抽取方法及装置 |
CN108829672A (zh) * | 2018-06-05 | 2018-11-16 | 平安科技(深圳)有限公司 | 文本的情感分析方法、装置、计算机设备和存储介质 |
US20190147042A1 (en) * | 2017-11-14 | 2019-05-16 | Microsoft Technology Licensing, Llc | Automated travel diary generation |
CN109977283A (zh) * | 2019-03-14 | 2019-07-05 | 中国人民大学 | 一种基于知识图谱和用户足迹的旅游推荐方法和系统 |
-
2019
- 2019-11-12 CN CN201911101348.9A patent/CN110851569B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104657466A (zh) * | 2015-02-11 | 2015-05-27 | 厦门美柚信息科技有限公司 | 一种基于论坛帖子特征的用户兴趣识别方法及装置 |
CN106874275A (zh) * | 2015-12-10 | 2017-06-20 | 北京新媒传信科技有限公司 | 构建情感词典的方法及装置 |
CN105512687A (zh) * | 2015-12-15 | 2016-04-20 | 北京锐安科技有限公司 | 训练情感分类模型和文本情感极性分析的方法及系统 |
CN106777274A (zh) * | 2016-06-16 | 2017-05-31 | 北京理工大学 | 一种中文旅游领域知识图谱构建方法及系统 |
CN108108346A (zh) * | 2016-11-25 | 2018-06-01 | 广东亿迅科技有限公司 | 文档的主题特征词抽取方法及装置 |
US20190147042A1 (en) * | 2017-11-14 | 2019-05-16 | Microsoft Technology Licensing, Llc | Automated travel diary generation |
CN108829672A (zh) * | 2018-06-05 | 2018-11-16 | 平安科技(深圳)有限公司 | 文本的情感分析方法、装置、计算机设备和存储介质 |
CN109977283A (zh) * | 2019-03-14 | 2019-07-05 | 中国人民大学 | 一种基于知识图谱和用户足迹的旅游推荐方法和系统 |
Non-Patent Citations (1)
Title |
---|
贾中浩 等: "旅游知识图谱特征学习的景点推荐", 《智能系统学报》 * |
Also Published As
Publication number | Publication date |
---|---|
CN110851569B (zh) | 2022-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109657054B (zh) | 摘要生成方法、装置、服务器及存储介质 | |
CN112560479B (zh) | 摘要抽取模型训练方法、摘要抽取方法、装置和电子设备 | |
CN111507104B (zh) | 建立标签标注模型的方法、装置、电子设备和可读存储介质 | |
JP2019504413A (ja) | 絵文字を提案するためのシステムおよび方法 | |
EP3825862A2 (en) | Method and apparatus of recommending information based on fused relationship network, and device and medium | |
CN111191428B (zh) | 评论信息处理方法、装置、计算机设备和介质 | |
KR102565673B1 (ko) | 시멘틱 표현 모델의 생성 방법, 장치, 전자 기기 및 저장 매체 | |
CN112507101B (zh) | 一种建立预训练语言模型的方法和装置 | |
CN111079442A (zh) | 文档的向量化表示方法、装置和计算机设备 | |
CN111414561B (zh) | 用于呈现信息的方法和装置 | |
CN111259671A (zh) | 文本实体的语义描述处理方法、装置及设备 | |
CN111783468A (zh) | 文本处理方法、装置、设备和介质 | |
CN113094550A (zh) | 视频检索方法、装置、设备和介质 | |
EP4113357A1 (en) | Method and apparatus for recognizing entity, electronic device and storage medium | |
WO2019133506A1 (en) | Intelligent routing services and systems | |
US11397740B2 (en) | Method and apparatus for providing information by using degree of association between reserved word and attribute language | |
CN108108468A (zh) | 一种基于概念和文本情感的短文本情感分析方法和装置 | |
CN111488740A (zh) | 一种因果关系的判别方法、装置、电子设备及存储介质 | |
CN111737559A (zh) | 资源排序方法、训练排序模型的方法及对应装置 | |
CN112541362B (zh) | 一种泛化处理的方法、装置、设备和计算机存储介质 | |
JP2023017921A (ja) | コンテンツ推薦とソートモデルトレーニング方法、装置、機器、記憶媒体及びコンピュータプログラム | |
CN114036322A (zh) | 用于搜索系统的训练方法、电子设备和存储介质 | |
CN112818091A (zh) | 基于关键词提取的对象查询方法、装置、介质与设备 | |
CN111324715A (zh) | 问答机器人的生成方法和装置 | |
CN111738015A (zh) | 文章情感极性分析方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |