CN117093661B - 地图数据的处理方法、装置、电子设备以及存储介质 - Google Patents

地图数据的处理方法、装置、电子设备以及存储介质 Download PDF

Info

Publication number
CN117093661B
CN117093661B CN202311334767.3A CN202311334767A CN117093661B CN 117093661 B CN117093661 B CN 117093661B CN 202311334767 A CN202311334767 A CN 202311334767A CN 117093661 B CN117093661 B CN 117093661B
Authority
CN
China
Prior art keywords
entity
text
road
map data
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311334767.3A
Other languages
English (en)
Other versions
CN117093661A (zh
Inventor
盛守鹏
左晶晶
单敏柱
叶琰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202311334767.3A priority Critical patent/CN117093661B/zh
Publication of CN117093661A publication Critical patent/CN117093661A/zh
Application granted granted Critical
Publication of CN117093661B publication Critical patent/CN117093661B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Remote Sensing (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供了一种地图数据的处理方法、装置、电子设备以及存储介质;本申请提供的方法可以应用于地图以及车载场景,方法包括:获取待检测的网络文本数据以及待更新的地图数据;对网络文本数据进行道路数据提取处理,得到至少一段道路文本,其中,每段道路文本至少包括道路信息;对每段道路文本进行实体关系提取处理,得到每段道路文本包括的实体名称之间的实体关系;对每个实体关系进行分类处理,得到类型为变化关系的目标实体关系;基于包含目标实体关系的每段道路文本,对待更新的地图数据进行更新处理,得到更新后的地图数据。通过本申请,能够提升地图数据的准确性以及时效性。

Description

地图数据的处理方法、装置、电子设备以及存储介质
技术领域
本申请涉及计算机技术,尤其涉及一种地图数据的处理方法、装置、电子设备以及存储介质。
背景技术
地图应用程序的普及提升了用户驾驶车辆、乘坐交通工具出行的便利程度,但道路状况多变,地图数据需要经常更新,设置专门的设备检测道路状况,或者指派专门的技术人员采集道路变化情况所需的人力、物力消耗极大,且更新地图数据的时效性较差,影响了使用地图应用程序的用户的体验。
相关技术中,暂无较好的方式提升地图数据的准确性以及时效性。
发明内容
本申请实施例提供一种地图数据的处理方法、装置、电子设备及计算机可读存储介质、计算机程序产品,能够提升地图数据的准确性以及时效性。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种地图数据的处理方法,所述方法包括:
获取待检测的网络文本数据以及待更新的地图数据;
对所述网络文本数据进行道路数据提取处理,得到至少一段道路文本,其中,每段所述道路文本至少包括道路信息;
对每段所述道路文本进行实体关系提取处理,得到每段所述道路文本包括的实体名称之间的实体关系;
对每个所述实体关系进行分类处理,得到类型为变化关系的目标实体关系;
基于包含所述目标实体关系的每段所述道路文本,对所述待更新的地图数据进行更新处理,得到更新后的地图数据。
本申请实施例提供一种地图数据的处理装置,包括:
数据获取模块,配置为获取待检测的网络文本数据以及待更新的地图数据;
提取模块,配置为对所述网络文本数据进行道路数据提取处理,得到至少一段道路文本,其中,每段所述道路文本至少包括道路信息;
所述提取模块,配置为对每段所述道路文本进行实体关系提取处理,得到每段所述道路文本包括的实体名称之间的实体关系;
分类模块,配置为对每个所述实体关系进行分类处理,得到类型为变化关系的目标实体关系;
更新模块,配置为基于包含所述目标实体关系的每段所述道路文本,对所述待更新的地图数据进行更新处理,得到更新后的地图数据。
本申请实施例提供一种电子设备,所述电子设备包括:
存储器,用于存储计算机可执行指令;
处理器,用于执行所述存储器中存储的计算机可执行指令时,实现本申请实施例提供的地图数据的处理方法。
本申请实施例提供一种计算机可读存储介质,存储有计算机可执行指令,用于被处理器执行时,实现本申请实施例提供的地图数据的处理方法。
本申请实施例提供一种计算机程序产品,包括计算机程序或计算机可执行指令,所述计算机程序或计算机可执行指令被处理器执行时,实现本申请实施例提供的地图数据的处理方法。
本申请实施例具有以下有益效果:
通过获取网络中的文本数据,并基于文本数据提取道路相关的文本,并依据道路相关的文本更新地图数据,提升了地图数据的时效性。通过确定实体名称之间的实体关系的类型,分析实体关系相较于地图数据的有效性,提升了信息收集的准确性,进而提升了地图数据的准确性。
附图说明
图1是本申请实施例提供的地图数据的处理方法的应用模式示意图;
图2是本申请实施例提供的电子设备的结构示意图;
图3A是本申请实施例提供的地图数据的处理方法的流程示意图一;
图3B是本申请实施例提供的地图数据的处理方法的流程示意图二;
图3C是本申请实施例提供的地图数据的处理方法的流程示意图三;
图3D是本申请实施例提供的地图数据的处理方法的流程示意图四;
图4是本申请实施例提供的地图数据的处理方法的交互流程示意图;
图5是本申请实施例提供的地图数据的处理模型的结构示意图;
图6是本申请实施例提供的地图数据的处理方法的一个可选的流程示意图;
图7是本申请实施例提供的地图数据的处理模型的一个可选的结构示意图;
图8是本申请实施例提供的数据转换过程的示意图;
图9是本申请实施例提供的提取道路文本的原理示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解, “一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
在本申请中,涉及到的数据抓取技术方案实施(例如:从社交平台或者即时通讯应用程序中获取的用户生成内容(User Generated Content),在本申请以上实施例运用到具体产品或技术中时,相关数据收集、使用和处理过程应该遵守国家法律法规要求,符合合法、正当、必要的原则,不涉及获取法律法规禁止或限制的数据类型,不会妨碍目标网站的正常运行。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)卷积神经网络(Convolutional Neural Networks,CNN),是一类包含卷积计算且具有深度结构的前馈神经网络(Feed forward Neural Networks,FNN),是深度学习(Deep Learning)的代表算法之一。卷积神经网络具有表征学习(RepresentationLearning)能力,能够按其阶层结构对输入图像进行平移不变分类(Shift-invariantClassification)。
2)分类模型,一种机器学习模型,它用于将输入数据分为预定义的类别或标签。分类模型通常通过使用训练数据来学习如何将输入数据映射到正确的类别。
3)自然语言处理(Nature Language processing, NLP)是计算机科学领域与人工智能领域中的重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理涉及自然语言,即人们日常使用的语言,与语言学研究密切;同时涉及计算机科学和数学、人工智能领域模型训练的重要技术。预训练模型,即是从NLP领域的大语言模型(Large Language Model,LLM)发展而来。经过微调,大语言模型可以广泛应用于下游任务。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
4)实体词,指表示事物实体的词,包括表示事物名称的名词和代替名词的代名词。本申请实施例中,道路文本是包含道路相关的实体词的文本。例如:大桥、路口。
5)实体关系,定义现实世界中事物内部或事物之间语义关系的抽象表示,体现一个实体集中的实体与另一个实体集中的实体之间的内在联系。
6)实体关系模型,一种机器学习模型,用于从现实世界的名称中中抽象出实体类型和实体间联系,然后用实体联系图表示数据的模型。应用在自然语言处理领域的实体关系模型,用于从文本中自动识别实体和实体之间的关系。实体关系模型通常使用训练数据来学习如何识别文本中的实体以及实体之间的关系,并可以在新的文本数据上进行预测。
7)变化关系,实体关系中表征实体之间生成变化现象的关系,变化作用于实体。例如:针对文本“某年某月某日,A道路维修”,其中,维修与A道路具有实体关系,且实体关系是变化关系。“维修”作用于实体名称“A道路”。
8)丢弃(Dropout),是指在深度网络的训练中,以一定的概率随机地 “临时丢弃”一部分神经元节点。Dropout作用于每份小批量训练数据,由于其随机丢弃部分神经元的机制,相当于每次迭代都在训练不同结构的神经网络。类比于引导聚集算法(Bagging),Dropout可被认为是一种实用的大规模深度神经网络的模型集成算法。
本申请实施例提供一种地图数据的处理方法、地图数据的处理装置、电子设备和计算机可读存储介质及计算机程序产品,能够提升地图数据的准确性以及时效性。
下面说明本申请实施例提供的电子设备的示例性应用,本申请实施例提供的电子设备可以实施终端设备,如笔记本电脑、平板电脑、台式计算机、机顶盒、智能电视、移动设备(例如,移动电话,便携式音乐播放器,个人数字助理,专用消息设备,便携式游戏设备)、车载终端、虚拟现实(Virtual Reality,VR)设备、增强现实(Augmented Reality,AR)设备等各种类型的用户终端,也可以实施为服务器。下面,将说明电子设备实施为服务器时示例性应用。
参考图1,图1是本申请实施例提供的地图数据的处理方法的应用模式示意图;示例的,图1中涉及服务器200、网络300及终端设备400、数据库500。第一终端设备400-1、第二终端设备400-2通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合。
在一些实施例中,服务器200是地图平台或者社交平台的服务器,第一终端设备400-1、和第二终端设备400-2均安装了地图应用程序以及社交平台应用程序,数据库500是地图数据库。
示例的,假设,某一个用户使用第一终端设备400-1通过网络300在社交平台发布了存在道路信息的文本“9月28日A路口由于施工原因而禁止通行”,服务器200获取社交平台中发布的文本,并调用本申请实施例提供的地图数据的处理方法提取道路信息,更新数据库500中的地图数据,并将地图数据反映在地图应用程序中,例如:在9月28日之前,当用户到达A路口附近时,显示A路口在对应的日期为禁止通行的提示信息,9月28日将地图中A路口对应的部分设置为禁止通行。第一终端设备400-1和第二终端设备400-2的地图应用程序中均能接收到上述信息,使得用户使用地图应用程序时,能够接收到最新的路况信息。
在一些实施例中,本申请实施例的地图数据的处理方法还可以应用在以下应用场景中:(1)道路检修平台,例如:用户可以将道路中发生的堵车、交通事故的文本,平台的服务器调用本申请实施例提供的地图数据的处理方法提取文本中的道路信息、故障地点,并将对应的道路信息、故障地点同步至人工服务端的地图数据中,以告知维护人员,加快道路维护的进度;(2)车载地图应用程序的信息实时更新,例如:早晚通勤高峰期,道路中时常发生堵车等情况,基于社交平台中用户反馈的文本,服务器调用本申请实施例提供的地图数据的处理方法,获取最新的道路情况相关信息,并更新地图数据,以使正在使用地图应用程序的用户可以实时了解到道路中是否存在堵车情况。
本申请实施例可以通过数据库技术实现,数据库(Database),简而言之可视为电子化的文件柜存储电子文件的处所,用户可以对文件中的数据进行新增、查询、更新、删除等操作。所谓“数据库”是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。
数据库管理系统(Database Management System,DBMS)是为管理数据库而设计的电脑软件系统,一般具有存储、截取、安全保障、备份等基础功能。数据库管理系统可以依据它所支持的数据库模型来作分类,例如关系式、XML(Extensible Markup Language,即可扩展标记语言);或依据所支持的计算机类型来作分类,例如服务器群集、移动电话;或依据所用查询语言来作分类,例如结构化查询语言(SQL,Structured Query Language)、XQuery;或依据性能冲量重点来作分类,例如最大规模、最高运行速度;亦或其他的分类方式。不论使用哪种分类方式,一些DBMS能够跨类别,例如,同时支持多种查询语言。
本申请实施例,还可以通过云技术实现,云技术(Cloud Technology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,以及搜索服务、社会网络、移动商务和开放协作等需求的推动,将来每个物品都有可能存在自己的哈希编码识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
在一些实施例中,服务器200可以实施为多个服务器,例如:地图服务器、数据收集服务器,其中,数据收集服务器用于从网络中收集文本数据以及从文本数据中提取能够用于更新地图数据的道路文本,地图服务器用于将道路文本更新到地图数据中,并将更新后的地图数据发送至使用地图应用程序的终端设备中。
在一些实施例中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。电子设备可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本发明实施例中不做限制。
参见图2,图2是本申请实施例提供的电子设备的结构示意图,电子设备可以是图1中的服务器200,图2所示的服务器200包括:至少一个处理器410、存储器450、至少一个网络接口420。服务器200中的各个组件通过总线系统440耦合在一起。可理解,总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统440。
处理器410可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
存储器450可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器450可选地包括在物理位置上远离处理器 410的一个或多个存储设备。
存储器450包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。
在一些实施例中,存储器450能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统451,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块452,用于经由一个或多个(有线或无线)网络接口420到达其他电子设备,示例性的网络接口420包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
在一些实施例中,本申请实施例提供的装置可以采用软件方式实现,图2示出了存储在存储器450中的地图数据的处理装置455,其可以是程序和插件等形式的软件,包括以下软件模块:数据获取模块4551、提取模块4552、分类模型4553以及更新模块4554,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。
在一些实施例中,终端或服务器可以通过运行计算机程序来实现本申请实施例提供的地图数据的处理方法。举例来说,计算机程序可以是操作系统中的原生程序或软件模块;可以是本地(Native)应用程序(APP,Application),即需要在操作系统中安装才能运行的程序,如地图APP或者即时通信APP;也可以是小程序,即只需要下载到浏览器环境中就可以运行的程序;还可以是能够嵌入至任意APP中的小程序。总而言之,上述计算机程序可以是任意形式的应用程序、模块或插件。
将结合本申请实施例提供的终端的示例性应用和实施,说明本申请实施例提供的地图数据的处理方法。
下面,说明本申请实施例提供的地图数据的处理方法,如前,实现本申请实施例的地图数据的处理方法的电子设备可以是终端或者服务器,又或者是二者的结合。因此下文中不再重复说明各个步骤的执行主体。
参见图3A,图3A是本申请实施例提供的地图数据的处理方法的流程示意图一,将结合图3A示出的步骤进行说明。
在步骤301中,获取待检测的网络文本数据以及待更新的地图数据。
示例的,网络文本数据可以通过数据抓取的方式从网络中获取,网络文本数据来源可以是网页、社交平台、公众号等。待更新的地图数据可以是网络文本数据发布方所在的真实世界的区域对应的地图数据。例如:用户在B市通过终端设备发布当地的新鲜事,形成用户原创内容的网络文本,地图数据是B市对应的地图数据。
在步骤302中,对网络文本数据进行道路数据提取处理,得到至少一段道路文本。
示例的,每段道路文本至少包括道路信息。道路信息是与道路相关的词汇,包括交通用语、地理位置相关的用语。
在一些实施例中,步骤302可以通过以下方式实现:对网络文本数据中的每段网络文本进行编码处理,得到每段网络文本的编码特征向量,其中,每个编码特征向量包括至少一个词嵌入向量;对每个编码特征中的每个词嵌入向量进行分类处理,得到类型为实体词的词嵌入向量;对类型为实体词的每个词嵌入向量进行分类处理,得到每个词嵌入向量的实体词类型;获取实体词类型为道路词汇的目标词嵌入向量,将每个目标词嵌入向量所属的网络文本作为道路文本。
示例的,对网络文本进行分词处理,得到网络文本中每个词汇,通过词汇转换向量(word2vec)方式,可以通过转换器模型(Transformer)将词汇转换为词嵌入向量(embedding)。对类型为实体词的每个词嵌入向量进行分类处理的方式可以是二分类处理,类型包括:道路词汇、非道路词汇。包含道路词汇的网络文本是道路文本。
在一些实施例中,还可以通过以下方式实现文本编码,查询词表中词汇与标识之间的映射关系,确定网络文本中每个词汇的词汇标识,将每个词汇标识组合为文本的编码特征向量。
在步骤303中,对每段道路文本进行实体关系提取处理,得到每段道路文本包括的实体名称之间的实体关系。
示例的,实体关系包括至少两个实体词以及至少两个实体词之间的关系。实体关系表征体现一个实体集中的实体与另一个实体集中的实体之间的内在联系。
在一些实施例中,参考图3B,图3B是本申请实施例提供的地图数据的处理方法的流程示意图二,步骤303可以通过图3B的步骤3031至步骤3033实现,以下具体说明。
在步骤3031中,对每段道路文本执行以下处理:对道路文本进行分词处理,得到道路文本中的每个词汇。
为便于解释说明,以道路文本“A高速因养护施工,占用部分车道,请司乘人员注意行车安全。”为例进行说明。将道路文本划分为多个词汇,包括:A高速、因、养护、施工、占用、部分、车道、请、司乘人员、注意、行车、安全。
在步骤3032中,基于每个词汇的词汇嵌入向量,对每个词汇进行分类处理,得到类型为实体名称的词汇。
示例的,词汇嵌入向量可以通过对词汇进行编码得到,词汇嵌入向量的获取原理参考上文步骤302,此处不再赘述。可以调用分类模型对词汇嵌入向量进行分类,得到实体词与非实体词。继续基于上文举例进行说明,对道路文本的每个词汇进行分类,得到实体词,包括:A高速、养护、施工、占用、车道、司乘人员。
在步骤3033中,对任意两个实体名称之间进行实体关系识别,得到道路文本包括的实体名称之间的实体关系。
示例的,提取实体关系的方式包括联合抽取以及流水线式抽取。流水线式抽取是指先使用实体识别模型识别文本中的实体对,然后判断实体对的关系,流水线式抽取的过程可以划分为:命名实体识别、实体链接和关系分类。联合抽取是指从文本中完成实体识别和关系分类任务,通过文中实体之间的联系确定实体之间的关系。
在一些实施例中,步骤3033可以通过以下方式实现:对每两个实体名称对应的两个词嵌入向量进行二分类处理,得到每两个实体名称之间分类结果,其中,分类结果包括:存在实体关系以及不存在实体关系;将道路文本中的每两个实体名称的实体关系组合,得到道路文本包括的实体名称之间的实体关系。
示例的,继续基于上文举例进行说明,抽取实体词“A高速、养护、施工、占用、车道、司乘人员”中的任意两个实体词进行二分类处理,可以通过以先后顺序拼接两个词嵌入向量形成叠加向量,将叠加向量输入到实体关系模型中进行分类,确定每个两个实体词之间是否存在实体关系。其中,“A高速、养护、施工、占用、车道”之间形成实体关系。
在一些实施例中,步骤3033可以通过以下方式实现:基于每个实体名称的词汇嵌入向量,对每个实体名称进行分类处理,得到主语实体名称;基于每个主语实体名称和道路文本的语言结构,确定每个主语实体名称分别对应的宾语实体名称;将每个主语实体名称与对应的宾语实体名称之间的关系,作为道路文本包括的实体名称之间的实体关系。
示例的,联合抽取通过分析文本中实体词之间的关系以确定实体关系。实体词“A高速、养护、施工、占用、车道、司乘人员”中,A高速是主语实体词,养护、施工是与主语实体词对应的宾语实体词。“司乘人员”与“养护、施工、占用、车道”不在同一句话中,未形成主语、宾语之间关系。“A高速、养护、施工、占用、车道”之间形成实体关系。
在步骤304中,对每个实体关系进行分类处理,得到类型为变化关系的目标实体关系。
本申请实施例中,实体关系的类型包括变化关系以及非变化关系,变化关系是指实体之间生成变化现象的关系,也即实体关系中一个实体作用于另一个实体,并对另一个实体形成变化。非变化关系表征实体词之间的关系稳定,不会互相造成变化。例如:道路A与道路B邻近。道路A与道路B之间存在实体关系,二者之间的实体关系是稳定的,为非变化关系。再例如:道路C今日检修。道路C与检修之间的实体关系是变化关系。检修作用于道路C,且对道路C产生变化。
在一些实施例中,步骤304可以通过以下方式实现:针对每个实体关系执行以下处理:获取实体关系中的第一实体与第二实体,其中,第一实体是实体关系中任意一个表征名词的实体词,第二实体是实体关系中除第一实体之外的任意一个实体词;响应于第二实体为动词且第二实体作用于第一实体,确定实体关系的类型为变化关系,并将类型为变化关系实体关系作为目标实体关系。
例如:道路文本的内容是“2023年4月25日,3号线地铁二期工程路段开通。”经过识别得到实体词“3号线地铁”、“二期工程路段”、“开通”等实体词,上述实体词之间构成实体关系。
其中,“3号线地铁”、“二期工程路段”是表征名称的实体词,“开通”是表征动词的实体词。将“二期工程路段”作为第一实体,开通作为第二实体。开通作用于3号线地铁二期工程路段,且开通为动词,则实体关系是目标实体关系,实体关系的类型是变化关系。
本申请实施例中通过分类策略的方式对实体关系进行分类,还可以通过卷积神经网络对实体关系的不同类型进行识别。
继续参考图3A,在步骤305中,基于包含目标实体关系的每段道路文本,对待更新的地图数据进行更新处理,得到更新后的地图数据。
示例的,将目标实体关系的每段道路文本由文本形式编辑为地图数据对应的数据格式,并将转换后的道路文本添加到地图数据中。编辑过程包含删减、修正、数据格式转换等处理。
示例的,在地图制作过程中,地图数据被划分到不同的数据产线进行处理,数据产线是在地图数据生产中,不同类型的数据,需要使用不同的资料输入,采用不同的作业工艺,将资料制作成地图母库数据。根据包含目标实体关系的每段道路文本所属的区域,将其划分至不同的数据产线进行处理。不同的数据产线负责的地图数据的部分不同。例如:工程产线负责地铁相关的地图数据;限行产线负责道路限行相关的地图数据。
在一些实施例中,参考图3C,图3C是本申请实施例提供的地图数据的处理方法的流程示意图三,图3A的步骤305可以通过图3C的步骤3051至步骤3054实现,以下具体说明。
在步骤3051中,将包含目标实体关系的每段道路文本作为目标文本,针对每段目标文本执行以下处理:获取目标文本所对应的目标区域。
这里,目标区域表征目标文本在真实世界中对应的区域。
示例的,目标道路文本中携带的道路信息至少包括表征位置的内容,该位置是真实世界中的位置,目标区域可以是以该位置为参考的区域。例如:道路文本携带的位置是“C公交站”,则目标区域可以是“C公交站”为中心的区域,目标区域的地图数据是以目标区域的地形、路况为基础采集形成的。
示例的,获取目标文本所对应的目标区域可以通过以下任意方式实现:
1、将发布目标文本的来源的地址关联的区域作为目标区域。
例如:用户发布道路文本所使用的终端设备位于W市,来源的地址是W市,将W市对应的区域作为目标区域。
2、将目标文本所包括的表征区域的实体名称作为目标区域。
例如:目标文本中携带明确的地点或者区域的名称(实体名称),将地点名称关联的区域;或者将区域名称所指代的区域作为目标区域。
在步骤3052中,基于目标区域从待更新的地图数据进行数据提取处理,得到目标区域的区域地图数据。
示例的,待更新地图数据是地图数据库中的数据,地图数据库中查询与目标区域存在映射关系的地图数据,并提取目标区域的区域地图数据。
在步骤3053中,基于目标文本对区域地图数据进行更新处理,得到更新后的区域地图数据。
示例的,由于道路文本的内容多种多样,更新方式包括但不限于以下任意一种方式:
1、基于目标文本生成提示信息,并将提示信息标注到区域地图数据中,其中,提示信息用于显示在地图应用程序中。
例如:目标文本的内容是“2路公交车由于C路段检修而更改终点站”,可以根据目标文本生成对应的提示信息的标注数据,并将标注数据添加到地图数据中,以使地图数据中能够查看到以目标文本内容对应的提示信息。提示信息的文本内容是目标文本的原文或者适应性修改过的目标文本。
2、响应于目标文本包括表征道路状态的第一实体词,将区域地图数据中目标区域对应的部分配置为第一实体词对应的状态。
示例的,状态例如:封闭、维修。将区域地图数据中目标区域对应的数据的状态属性设置为目标文本对应的状态,以使显示区域地图数据的过程中,区域地图数据以状态对应的显示形态表征。例如:目标文本的内容是“某某路口今日封闭”,第一实体词是封闭,状态是封闭,显示区域地图数据的过程中,将某某路口标注为封闭状态,以区别于地图中其他部分的颜色显示。
3、响应于目标文本包括表征时间的第二实体词,在第二实体词对应的时间段内,目标文本所包含的状态对区域地图数据生效。
示例的,在第二实体词对应的时间段内,将区域地图数据中目标区域对应的数据的状态属性设置为目标文本对应的状态,例如:目标文本的内容是“某某路口9月20日封闭”,第一实体词是封闭,状态是封闭,第二实体词是9月20日,显示区域地图数据的过程中,在9月20日内,将某某路口标注为封闭状态,以区别于地图中其他部分的颜色显示,在9月20日之外的时间,恢复某某路口的原显示状态。
在步骤3054中,基于更新后的区域地图数据,分别替代待更新的地图数据中每个目标区域的区域地图数据,得到更新后的地图数据。
示例的,地图数据被划分为多个区域的数据,可以分别对每个区域的数据进行更新,相较于整体更新,节约了计算资源。
在一些实施例中,本申请实施例提供的地图数据的处理方法通过文本处理模型实现,参考图5,图5是本申请实施例提供的地图数据的处理模型的结构示意图。文本处理模型501包括文本分类模型502和实体关系模型503;文本分类模型502用于执行道路数据提取处理,实体关系模型503用于执行实体关系提取处理。
在一些实施例中,参考图3D,图3D是本申请实施例提供的地图数据的处理方法的流程示意图四,在图3A的步骤301之前,执行图3D中的步骤3011至步骤3014,以下具体说明。
在步骤3011中,获取样本数据集合。
示例的,样本数据集合包括样本道路文本、样本道路文本包括的样本实体名称之间的样本实体关系、实体关系的实际类型;实体关系的实际类型可以是变化关系或者非变化关系。样本道路文本的来源可以是网络。
在步骤3012中,基于样本数据集合调用文本处理模型中的待训练的实体关系模型进行分类处理,得到每个样本实体关系的预测类型。
示例的,调用文本处理模型中的待训练的实体关系模型进行分类处理的原理可以参考图3A中的步骤304,此处不再赘述。
在步骤3013中,基于每段样本道路文本的预测类型与对应的每个实际类型之间的差异,确定交叉熵损失函数。
示例的,交叉熵损失用于表征两个概率分布间的差异性信息。语言模型的性能通常用交叉熵和复杂度(perplexity)来衡量。交叉熵的意义是用实体关系模型对实体关系进行识别的难度。
在步骤3014中,基于交叉熵损失函数对待训练的实体关系模型进行参数更新处理,得到训练后的实体关系模型。
示例的,参数更新处理的方式可以是反向传播处理,反向传播处理通过计算损失函数对神经网络参数的梯度来更新参数,从而最小化损失函数。,对实体关系模型执行多个轮次的迭代训练,直至迭代次数达到预配置次数阈值。
在一些实施例中,在步骤305之后,执行以下处理:响应于更新后的地图数据与实际路况信息存在差异,将用于更新地图数据的道路文本作为错误文本;将错误文本作为用于训练实体关系模型的负样本。
本申请实施例中,将错误文本用于反哺实体关系模型的训练数据集,能够提升实体关系模型进行实体关系识别的准确性,进而提升地图数据更新的准确性。
在一些实施例中,在步骤305之后,基于更新后的地图数据生成地图显示数据,其中,地图显示数据用于显示在终端设备中。参考图4,图4是本申请实施例提供的地图数据的处理方法的交互流程示意图。图4表征了图1中第一终端设备400-1、第二终端设备400-2与服务器200之间的交互过程。
在步骤S401中,第一终端设备400-1发送网络文本至服务器200中。
示例的,第一终端设备400-1和第二终端设备400-2均安装了地图应用程序、社交软件。用户通过第一终端设备400-1发布原创内容到网络中,服务器200可以是社交平台的服务器,或者地图平台服务器。
在步骤S402中,服务器200提取网络文本中的道路文本,响应于道路文本中的实体关系为目标实体关系,基于道路文本更新地图数据,并将更新后的地图数据发送给终端设备。
示例的,服务器200对地图数据的处理过程可以参考图3A的步骤。
在步骤S403中,服务器200向第二终端设备400-2发送更新后的地图数据,第二终端设备400-2接收更新后的地图数据。
在步骤S404中,服务器200向第一终端设备400-1发送更新后的地图数据,第一终端设备400-1接收更新后的地图数据。
步骤S403和步骤S404之间不分先后顺序。
本申请实施例中,通过提取网络中的道路文本,并基于具有目标实体关系的道路文本更新地图数据,相较于相关技术中通过专门的人员实地采集地图数据,节约了采集地图数据所需的计算资源,提升了地图数据的时效性。
本申请实施例中,通过获取网络中的文本数据,并基于文本数据提取道路相关的文本,并依据道路相关的文本更新地图数据,提升了地图数据的时效性。通过确定实体名称之间的实体关系的类型,也即,分析实体关系相较于地图数据的有效性,提升了更新到地图数据中的内容的准确性,提升了地图数据的准确性。
下面,将说明本申请实施例地图数据的处理方法在一个实际的应用场景中的示例性应用。
由于路况多变、道路建设发展迅速等原因,地图数据需要实时更新,通过人工采集道路数据所消耗的人力与物力成本极高。对于各类道路数据,互联网文本这个数据源有数量巨大,时效性好,权威性高等优点,如新路开通,道路封闭,道路名更新,等各类变化,在社交平台、公众号、官网均会有比较及时的信息发布。对地图平台的运营商来说,从互联网文本中提取有效的更新信息,来指导地图数据的更新,有着高时效、低成本的巨大优势。
相关技术中,在从网页、社交平台、公众号等信源获取到海量的文本数据之后,将抓取到的文本通过分类模型判断文本是否能够作为更新地图数据的有效情报。然而,相关技术存在以下问题:
(1)每类数据产线的要求不同,导致更新成本较高,即文本特征有较大的差异,如公示新路开通的文本,和通知某条高速封闭的文本,在表达上有较大的差异,所以需要对每类数据做定制化的训练和部署,这个过程一般要1-2个月,并且标注成本也不可忽视。其中,地图产线是指在地图数据生产中,不同类型的数据,需要使用不同的资料输入,采用不同的作业工艺,将资料制作成地图母库数据。
(2)由于每条产线的定制化训练部署,造成整个文本处理平台越来越庞大,资源成本、研发成本较高。
(3)互联网文本多样化,文本提取难度高;例如:有热点事件发生时,如超载运输车引起突发性桥梁坍塌,会对模型的判断造成负面影响。相关方案中,需要不断的对线上模型进行针对性的补充语料训练、评测、部署,以避免准确召回率的降低。
(4)分类模型本身的局限性影响了数据更新的准确性。如目前方案中应用较广的二分类模型,对输入文本进行是或者否的判断,在复杂的语料输入时,易发生误判。
本申请实施例提出一种地图数据的处理方法,能够从互联网文本中提取道路数据变化情报,相较于现有技术,摒弃了传统的定制化的分类模型处理文本的思路,基于实体关系提取模型来构建统一的文本处理框架,通过分析从文本中提取的实体和关系进行分析,来判断该文本是否包含道路数据变化的信息。其中,对于包含道路信息的文本,可根据实体和关系的类型来判断该文本包含的是哪一类数据变化,并将其分发至不同的地图数据作业产线,将包含道路信息的文本转化为地图道路数据并推送至数据库和安装了地图应用程序的终端设备。
参考图6,图6是本申请实施例提供的地图数据的处理方法的一个可选的流程示意图;以下将服务器作为执行主体,结合图6的步骤进行解释说明。
在步骤601中,从网络文本中提取道路文本。
示例的,网络文本的来源可以是社交平台、即时通信软件、网页等来源。在网络抓取文本数据之后,通过通用的二分类模型来判断一条文本数据是否包含道路信息。也即,通过二分类模型判断网络文本中是否包含了道路相关信息,能够将网络文本中的大部分的原始数据过滤掉,减小对后续模型处理的压力。另外,二分类模型不需要精细化的判断数据产线相关的特征,所以训练难度和成本较低,只需要保证高召回即可满足系统需求。
示例的,二分类模型可以是双向编码转换器(Bidirectional EncoderRepresentation from Transformers,BERT)、深度金字塔卷积神经网络模型(DeepPyramid Convolutional Neural Network,DPCNN)。分类模型进行分类之前,对网络文本进行编码,将文本转换为特征向量,可采用预训练模型进行编码,例如通过双向编码转换器编码,也可以使用传统的词汇转换向量(word2vec)方式进行编码。
分类模型的训练数据应具有多样性、均衡性。由于分类模型由于处理互联网的文本,互联网的文本中难免会夹杂着各种广告等无关的信息。在准备训练数据的时候可以进行样本增强,可以采用的样本增强方法包括但不限于同义词替换、同义词插入、词语交换等方法。训练过程中适当增加丢弃(Dropout)操作、注意力机制等环节,可以保证模型快速收敛的同时还可以有较高的准确率。
参考图7,图7是本申请实施例提供的地图数据的处理模型的一个可选的结构示意图。
文本数据“7月2日晚,A大桥主桥右幅中跨完成合龙,标志着该桥主桥顺利贯通……”输入到二分类模型701中,文本的分类结果为“与道路相关”、“与道路无关”,判断文本是否与道路相关,若判断结果为否,针对该文本终止处理。若判断结果为是,将该文本输出到实体关系模型702,进一步进行处理。
示例的,本申请实施例使用分类模型进行文本粗筛,使用实体关系模型进行关键信息处理,在一些实施例中,在粗分类模型之前,可以通过关键词进行更粗粒度的筛选,可降低分类模型的处理压力,提升计算速度。
本申请实施例中,采用统一的处理流程,即不再为数据产线定制分类模型。使用二分类模型来对文本进行前置处理,粗分类,判断该文本是否包含道路信息,使用实体关系提取模型来获取文本中的关键信息,通过分发策略路由至对应的数据制作产线。这样整个文本数据处理系统,仅需要一套服务,一个流程,大大降低了研发成本、资源成本和维护成本。在本申请实施例中分类模型作为前置处理,仅需要判断该文本描述的是否包含道路信息,比现有方案中的分类模型要简单,训练成本更低,误判率低。新方案中使用实体关系模型来抽取文本中的关键信息,如时间、省市、高速路、收费站,以及这些实体之间的关系,如开通,封闭,实体关系模型准确率可达70-80%以上,大大提升当前方案准确率的上限。
在步骤602中,对道路文本进行实体关系提取以及实体关系分类,得到分类结果。
示例的,实体关系提取和实体关系分类可以通过实体关系模型实现。实体关系模型用于提取文本中的各类实体以及关系,包括地址、时间、事件等。
实体关系模型的类型包括但不限于关系抽取模型(Span-based RelationExtraction Transformer,SPERT)、联合关系抽取模型(例如:TPLinker模型,T,P分别表示Token Pair,Linker就是Token之间的连接器,)和管道(pipeline)模型。其中,TPLinke模型将实体识别与关系抽取任务进行联合建模,同时完成实体和关系的抽取。相对于管道模型,联合抽取可以利用两个任务中的潜在联系,一定程度上缓解误差积累的缺点。管道模型用于将实体关系抽取任务拆分为两个子任务,先进行实体识别,再在给定实体和句子的情况下进行完成关系分类任务。
示例的,实体关系模型不区分产线,统一处理各类道路相关文本,只需在前期训练中加入关注的实体名称类型,如高速,国道,大桥,地铁,以及事件名称类型,如:开通,封闭,管制,限行等。实体关系模型就可以实现从文本中提取关注的实体和关系。下图所示为实体关系模型提取道路文本信息的全流程。
在一些实施例中,在实体关系模型的训练过程中,需要人工标注出道路信息文本中的实体及其关系,整理成数据集进行模型的训练。训练完成后,将道路文本信息输入实体关系模型,即可提取出文本中的道路信息相关的实体及其关系。
本申请实施例中,使用通用的分类模型和实体关系模型,分类模型和实体关系模型处理的都是通用的数据,训练、迭代可以和数据产线生产完全解耦,不需要为特定产线做定制训练,只需要在日常迭代中,不断的提升对各类道路实体和事件的覆盖,保证实体关系提取的准召。是否下发、下发到那条数据制作产线,由轻量级可配置的策略控制,可以灵活的支持各类需求。
在步骤603中,基于分类结果确定能够用于更新地图数据的道路文本。
示例的,参考图9,图9是本申请实施例提供的提取道路文本的原理示意图。道路文本“自2022年6月10至2022年6月25日,需对C路与J路实施全封闭施工。”输入到实体关系模型中,实体关系模型可以是关系抽取模型、联合关系抽取模型和管道模型中任意一种。实体关系模型对道路文本进行实体名称提取以及实体关系提取,得到实体名称:C路、J路、封闭、施工、2022年6月10、2022年6月25日等。其中,C路、J路是头实体(用于作为主语的实体),封闭、施工是尾实体(用于作为宾语的实体)。封闭、施工是表达事件的动词,且作用于C路、J路,道路文本能够用于更新地图数据。
在得到模型输出的结果之后,基于分类得到的实体关系判断每个道路文本是否能够用于更新地图数据,若能够用于更新地图数据,则将道路文本作为有效情报。根据策略将有效情报分发到对应的产线。基于实体关系模型抽取的实体及其关系,找到其中关键的“变化”关系,根据其对应的动作类型及其道路的实体来下发对应的产线。分发策略可以是:将道路文本划分至道路文本所携带的地址对应的地区的数据产线。
在不同的产线上,根据业务情况有不同的道路实体需求和动作实体的要求。产线的类型可以根据地图中不同功能划分的。例如:开封产线是指专门负责修改更新道路通行状态的产线或者流程,其中,开封是道路的“开通或者封闭”的简称。
比如开封产线在提取文本到“变化”关系后,其对应的动作实体为“开封”类型才能下发;而重工产线则需要对提取的道路实体有约束(比如不需要地铁/高铁等的“变化”),同时其对应的动作实体为“重工”类型才能下发。具体的,比如道路文本为“自2022年6月10至2022年6月25日,需对C路和J路实施全封闭施工。”中提取的“变化”关系(对应的动作实体为“全封闭”,道路实体为“C路”),那么即将该条道路文本情报下发至开封产线。
在步骤604中,将道路文本处理为地图数据格式文件,并基于地图数据格式文件更新地图数据库。
示例的,参考图8,图8是本申请实施例提供的数据转换过程的示意图。从社交平台、网页、公众号等来源通过文本抓取方式得到网络文本,二分类模型801对网络文本进行分类,将道路文本发送至实体关系模型802进行实体关系提取,并根据实体关系判断道路文本是否能够用于更新地图数据,将能够用于更新地图数据的道路文本分发至不同的地图数据产线803中。数据产线803例如:重点工程产线、开通封闭产线、限行产线以及道路名产线;图8中的地图数据产线803的类型是根据产线功能划分的。
统一处理后的道路文本,将通过对应的产线进行数据生产制作,将文本中的道路数据信息,按照产线工艺制作成母库数据,并做出品发布,供安装了地图应用程序的终端设备等应用方使用。
示例的,本申请实施例在处理实体关系模型结果和分发产线时,采用策略配置的方式,在一些实施例中,将道路文本分配至不同的产线的过程也可以在积累一定量级的结果特征之后,采用多分类或者其它预测模型来实现。
在步骤605中,对错误的地图数据进行标注,并将标注后的地图数据用于训练实体关系模型。
示例的,在制作地图的过程中,通过作业人员对采集到的道路文本进行人工核实之后,将误召的道路文本标记,并标记的道路文本发送至研发人员侧,以分析漏召原因、补充训练语料,进而提升实体关系模型、分类模型的准确率。整个流程将形成一个正向反馈,由实际作业结果来反哺模型训练,迭代效率将远高于盲目的灌入语料。
示例的,可以通过统计模型对训练实体关系模型的样本数据进行筛选,以获取更多的有效文本的文本源,对信源进行打标,不断的筛选更优质的文本情报源,减少无效文本量,另外也可以统计分析高产出文本源的特征,指导进一步的文本扩源。
本申请实施例可以应用到地图数据生产领域中,对互联网文本数据的处理方向。对从公网获取到的海量文本信息,进行分类,关键信息提取,并判断道路文本是否能够用于更新地图数据,如果道路文本有效,判断道路文本属于地图所属的哪条数据产线,更新对应区域的地图。在实际应用场景中,本申请实施例可显著提高对文本数据处理的准确率,提高吞吐,降低成本。
本申请实施例提供的地图数据的处理方法具有以下有益效果:
本申请实施例所使用的神经网络模型均是通用模型,例如:分类模型和实体关系模型,降低了应用的难度和门槛,并且将产线和模型训练解耦开来,提升计算效率,节约计算资源。
在相关技术的方案中,处理同样量级的文本数据,需要针对不同产线建设多套分类模型服务,并且每条产线的分类模型,都需要单独的进行训练和迭代。在应用本申请实施例提供的方法之后,处理同样量级的文本数据,只需要一套服务即可,节约了计算资源。模型的训练也与产线解耦,并且可以通过地图数据的更新结果反哺模型训练,以来提升模型识别实体关系的准确性。
现有方案的分类模型,如迭代不及时,将面临有效率逐步下降的风险,并且由于文本内容的多样性,分类模型的分类结果的有效率不高。在应用本申请实施例提供的方法之后,模型的综合有效率经测试可达80%,也就是说流入到制作环节的文本情报有效率将有50%以上的提升,可大大节省数据制作的人力以及计算资源,提高地图的时效性。
下面继续说明本申请实施例提供的地图数据的处理装置455的实施为软件模块的示例性结构,在一些实施例中,如图2所示,存储在存储器450的地图数据的处理装置455中的软件模块可以包括:数据获取模块4551,配置为获取待检测的网络文本数据以及待更新的地图数据;提取模块4552,配置为对所述网络文本数据进行道路数据提取处理,得到至少一段道路文本,其中,每段所述道路文本至少包括道路信息;提取模块4552,配置为对每段所述道路文本进行实体关系提取处理,得到每段所述道路文本包括的实体名称之间的实体关系;分类模块4553,配置为对每个所述实体关系进行分类处理,得到类型为变化关系的目标实体关系;更新模块4554,配置为基于包含所述目标实体关系的每段所述道路文本,对所述待更新的地图数据进行更新处理,得到更新后的地图数据。
在一些实施例中,提取模块4552,配置为对所述网络文本数据中的每段网络文本进行编码处理,得到每段所述网络文本的编码特征向量,其中,每个所述编码特征向量包括至少一个词嵌入向量;对每个所述编码特征中的每个所述词嵌入向量进行分类处理,得到类型为实体词的词嵌入向量;对类型为实体词的每个所述词嵌入向量进行分类处理,得到每个所述词嵌入向量的实体词类型;获取实体词类型为道路词汇的目标词嵌入向量,将每个所述目标词嵌入向量所属的网络文本作为道路文本。
在一些实施例中,提取模块4552,配置为对每段所述道路文本执行以下处理:
对所述道路文本进行分词处理,得到所述道路文本中的每个词汇;基于每个所述词汇的词汇嵌入向量,对每个所述词汇进行分类处理,得到类型为实体名称的词汇;对任意两个所述实体名称之间进行实体关系识别,得到所述道路文本包括的实体名称之间的实体关系。
在一些实施例中,提取模块4552,配置为对每两个所述实体名称对应的两个所述词嵌入向量进行二分类处理,得到每两个所述实体名称之间分类结果,其中,所述分类结果包括:存在实体关系以及不存在实体关系;将所述道路文本中的每两个所述实体名称的实体关系组合,得到所述道路文本包括的实体名称之间的实体关系。
在一些实施例中,提取模块4552,配置为基于每个所述实体名称的词汇嵌入向量,对每个所述实体名称进行分类处理,得到主语实体名称;基于每个所述主语实体名称和所述道路文本的语言结构,确定每个所述主语实体名称分别对应的宾语实体名称;将每个所述主语实体名称与对应的宾语实体名称之间的关系,作为所述道路文本包括的实体名称之间的实体关系。
在一些实施例中,分类模块4553,配置为针对每个所述实体关系执行以下处理:
获取所述实体关系中的第一实体与第二实体,其中,所述第一实体是所述实体关系中任意一个表征名词的实体词,所述第二实体是所述实体关系中除所述第一实体之外的任意一个实体词;响应于所述第二实体为动词且所述第二实体作用于所述第一实体,确定所述实体关系的类型为变化关系,并将类型为变化关系实体关系作为目标实体关系。
在一些实施例中,更新模块4554,配置为将包含所述目标实体关系的每段所述道路文本作为目标文本,针对每段所述目标文本执行以下处理:
获取所述目标文本所对应的目标区域,其中,所述目标区域表征所述目标文本在真实世界中对应的区域;基于所述目标区域从所述待更新的地图数据进行数据提取处理,得到所述目标区域的区域地图数据;基于所述目标文本对所述区域地图数据进行更新处理,得到更新后的所述区域地图数据;基于更新后的所述区域地图数据,分别替代所述待更新的地图数据中每个所述目标区域的区域地图数据,得到更新后的地图数据。
在一些实施例中,更新模块4554,配置为通过以下至少一种方式提取所述目标文本所对应的目标区域:
将发布所述目标文本的来源的地址关联的区域作为目标区域;将所述目标文本所包括的表征区域的实体名称作为目标区域。
在一些实施例中,更新模块4554,配置为通过以下至少一种方式对所述区域地图数据进行更新处理:
基于所述目标文本生成提示信息,并将所述提示信息标注到所述区域地图数据中,其中,所述提示信息用于显示在地图应用程序中;响应于所述目标文本包括表征道路状态的第一实体词,将所述区域地图数据中所述目标区域对应的部分配置为所述第一实体词对应的状态;响应于所述目标文本包括表征时间的第二实体词,在所述第二实体词对应的时间段内,所述目标文本所包含的状态对所述区域地图数据生效。
在一些实施例中,地图数据的处理装置可以通过文本处理模型实现,所述文本处理模型包括文本分类模型和实体关系模型;所述文本分类模型用于执行所述道路数据提取处理,所述实体关系模型用于执行所述实体关系提取处理。
在一些实施例中,数据获取模块4551,配置为在所述获取待检测的网络文本数据以及待更新的地图数据之前,获取样本数据集合,其中,所述样本数据集合包括样本道路文本、样本道路文本包括的样本实体名称之间的样本实体关系、实体关系的实际类型;基于所述样本数据集合调用所述文本处理模型中的待训练的实体关系模型进行分类处理,得到每个所述样本实体关系的预测类型;基于每段所述样本道路文本的所述预测类型与对应的每个所述实际类型之间的差异,确定交叉熵损失函数;基于所述交叉熵损失函数对所述待训练的实体关系模型进行参数更新处理,得到训练后的实体关系模型。
在一些实施例中,数据获取模块4551,配置为在所述基于包含所述目标实体关系的每段所述道路文本,对所述待更新的地图数据进行更新处理,得到更新后的地图数据之后,响应于所述更新后的地图数据与实际路况信息存在差异,将用于更新所述地图数据的道路文本作为错误文本;将所述错误文本作为用于训练所述实体关系模型的负样本。
本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机程序或计算机可执行指令,该计算机程序或计算机可执行指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机可执行指令,处理器执行该计算机可执行指令,使得该电子设备执行本申请实施例上述的地图数据的处理方法。
本申请实施例提供一种存储有计算机可执行指令的计算机可读存储介质,其中存储有计算机可执行指令或者计算机程序,当计算机可执行指令或者计算机程序被处理器执行时,将引起处理器执行本申请实施例提供的地图数据的处理方法,例如,如图3A示出的地图数据的处理方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,计算机可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,计算机可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,HyperText Markup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个电子设备上执行,或者在位于一个地点的多个电子设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个电子设备上执行。
综上所述,通过本申请实施例通过获取网络中的文本数据,并基于文本数据提取道路相关的文本,并依据道路相关的文本更新地图数据,提升了地图数据的时效性。通过确定实体名称之间的实体关系的类型,也即,分析实体关系相较于地图数据的有效性,提升了更新到地图数据中的内容的准确性,提升了地图数据的准确性。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。

Claims (14)

1.一种地图数据的处理方法,其特征在于,所述方法包括:
获取待检测的网络文本数据以及待更新的地图数据;
对所述网络文本数据进行道路数据提取处理,得到至少一段道路文本,其中,每段所述道路文本至少包括道路信息;
对每段所述道路文本进行实体关系提取处理,得到每段所述道路文本包括的实体名称之间的实体关系,其中,所述实体关系的提取通过文本处理模型实现,所述文本处理模型包括文本分类模型和实体关系模型;所述文本分类模型用于执行所述道路数据提取处理,所述实体关系模型用于执行所述实体关系提取处理,其中,所述实体关系模型不区分数据产线,统一处理各类所述道路文本;
对每个所述实体关系进行分类处理,得到类型为变化关系的目标实体关系;
基于包含所述目标实体关系的每段所述道路文本,对所述待更新的地图数据进行更新处理,得到更新后的地图数据;
其中,根据包含所述目标实体关系的每段所述道路文本所属的区域,将每段所述道路文本划分至不同的所述数据产线进行处理,不同的所述数据产线负责的地图数据的部分不同,所述数据产线的分发策略包括:将所述道路文本划分至所述道路文本所携带的地址对应的地区的数据产线;所述更新处理以区域地图数据为单位执行,通过以下至少一种方式对所述区域地图数据进行更新处理:
基于目标文本生成提示信息,并将提示信息标注到所述区域地图数据中,其中,所述提示信息用于显示在地图应用程序中,所述目标文本是包含所述目标实体关系的所述道路文本;响应于所述目标文本包括表征道路状态的第一实体词,将所述区域地图数据中目标区域对应的部分配置为所述第一实体词对应的状态;
响应于所述目标文本包括表征时间的第二实体词,在所述第二实体词对应的时间段内,所述目标文本所包含的状态对所述区域地图数据生效。
2.根据权利要求1所述的方法,其特征在于,所述对所述网络文本数据进行道路数据提取处理,得到至少一段道路文本,包括:
对所述网络文本数据中的每段网络文本进行编码处理,得到每段所述网络文本的编码特征向量,其中,每个所述编码特征向量包括至少一个词嵌入向量;
对每个所述编码特征中的每个所述词嵌入向量进行分类处理,得到类型为实体词的词嵌入向量;
对类型为实体词的每个所述词嵌入向量进行分类处理,得到每个所述词嵌入向量的实体词类型;
获取实体词类型为道路词汇的目标词嵌入向量,将每个所述目标词嵌入向量所属的网络文本作为道路文本。
3.根据权利要求1所述的方法,其特征在于,所述对每段所述道路文本进行实体关系提取处理,得到每段所述道路文本包括的实体名称之间的实体关系,包括:
对每段所述道路文本执行以下处理:
对所述道路文本进行分词处理,得到所述道路文本中的每个词汇;
基于每个所述词汇的词汇嵌入向量,对每个所述词汇进行分类处理,得到类型为实体名称的词汇;
对任意两个所述实体名称之间进行实体关系识别,得到所述道路文本包括的实体名称之间的实体关系。
4.根据权利要求3所述的方法,其特征在于,所述对任意两个所述实体名称之间进行实体关系识别,得到所述道路文本包括的实体名称之间的实体关系,包括:
对每两个所述实体名称对应的两个词嵌入向量进行二分类处理,得到每两个所述实体名称之间分类结果,其中,所述分类结果包括:存在实体关系以及不存在实体关系;
将所述道路文本中的每两个所述实体名称的实体关系组合,得到所述道路文本包括的实体名称之间的实体关系。
5.根据权利要求3所述的方法,其特征在于,所述对任意两个所述实体名称之间进行实体关系识别,得到所述道路文本包括的实体名称之间的实体关系,包括:
基于每个所述实体名称的词汇嵌入向量,对每个所述实体名称进行分类处理,得到主语实体名称;
基于每个所述主语实体名称和所述道路文本的语言结构,确定每个所述主语实体名称分别对应的宾语实体名称;
将每个所述主语实体名称与对应的宾语实体名称之间的关系,作为所述道路文本包括的实体名称之间的实体关系。
6.根据权利要求1所述的方法,其特征在于,所述对每个所述实体关系进行分类处理,得到类型为变化关系的目标实体关系,包括:
针对每个所述实体关系执行以下处理:
获取所述实体关系中的第一实体与第二实体,其中,所述第一实体是所述实体关系中任意一个表征名词的实体词,所述第二实体是所述实体关系中除所述第一实体之外的任意一个实体词;
响应于所述第二实体为动词且所述第二实体作用于所述第一实体,确定所述实体关系的类型为变化关系,并将类型为变化关系实体关系作为目标实体关系。
7.根据权利要求1所述的方法,其特征在于,所述基于包含所述目标实体关系的每段所述道路文本,对所述待更新的地图数据进行更新处理,得到更新后的地图数据,包括:
针对每段目标文本执行以下处理:
获取所述目标文本所对应的目标区域,其中,所述目标区域表征所述目标文本在真实世界中对应的区域;
基于所述目标区域从所述待更新的地图数据进行数据提取处理,得到所述目标区域的区域地图数据;
基于所述目标文本对所述区域地图数据进行更新处理,得到更新后的所述区域地图数据;
基于更新后的所述区域地图数据,分别替代所述待更新的地图数据中每个所述目标区域的区域地图数据,得到更新后的地图数据。
8.根据权利要求7所述的方法,其特征在于,所述获取所述目标文本所对应的目标区域,包括:
通过以下至少一种方式提取所述目标文本所对应的目标区域:
将发布所述目标文本的来源的地址关联的区域作为目标区域;
将所述目标文本所包括的表征区域的实体名称作为目标区域。
9.根据权利要求1所述的方法,其特征在于,在所述获取待检测的网络文本数据以及待更新的地图数据之前,所述方法还包括:
获取样本数据集合,其中,所述样本数据集合包括样本道路文本、样本道路文本包括的样本实体名称之间的样本实体关系、实体关系的实际类型;
基于所述样本数据集合调用所述文本处理模型中的待训练的实体关系模型进行分类处理,得到每个所述样本实体关系的预测类型;
基于每段所述样本道路文本的所述预测类型与对应的每个所述实际类型之间的差异,确定交叉熵损失函数;
基于所述交叉熵损失函数对所述待训练的实体关系模型进行参数更新处理,得到训练后的实体关系模型。
10.根据权利要求9所述的方法,其特征在于,在所述基于包含所述目标实体关系的每段所述道路文本,对所述待更新的地图数据进行更新处理,得到更新后的地图数据之后,所述方法还包括:
响应于所述更新后的地图数据与实际路况信息存在差异,将用于更新所述地图数据的道路文本作为错误文本;
将所述错误文本作为用于训练所述实体关系模型的负样本。
11.一种地图数据的处理装置,其特征在于,所述装置包括:
数据获取模块,配置为获取待检测的网络文本数据以及待更新的地图数据;
提取模块,配置为对所述网络文本数据进行道路数据提取处理,得到至少一段道路文本,其中,每段所述道路文本至少包括道路信息;
所述提取模块,配置为对每段所述道路文本进行实体关系提取处理,得到每段所述道路文本包括的实体名称之间的实体关系;
分类模块,配置为对每个所述实体关系进行分类处理,得到类型为变化关系的目标实体关系,其中,所述实体关系的提取通过文本处理模型实现,所述文本处理模型包括文本分类模型和实体关系模型;所述文本分类模型用于执行所述道路数据提取处理,所述实体关系模型用于执行所述实体关系提取处理,其中,所述实体关系模型不区分数据产线,统一处理各类所述道路文本;
更新模块,配置为基于包含所述目标实体关系的每段所述道路文本,对所述待更新的地图数据进行更新处理,得到更新后的地图数据;其中,根据包含所述目标实体关系的每段所述道路文本所属的区域,将每段所述道路文本划分至不同的所述数据产线进行处理,不同的所述数据产线负责的地图数据的部分不同,所述数据产线的分发策略包括:将所述道路文本划分至所述道路文本所携带的地址对应的地区的数据产线;所述更新处理以区域地图数据为单位执行,通过以下至少一种方式对所述区域地图数据进行更新处理:基于目标文本生成提示信息,并将所述提示信息标注到所述区域地图数据中,其中,所述提示信息用于显示在地图应用程序中,所述目标文本是包含所述目标实体关系的所述道路文本;响应于所述目标文本包括表征道路状态的第一实体词,将所述区域地图数据中目标区域对应的部分配置为所述第一实体词对应的状态;响应于所述目标文本包括表征时间的第二实体词,在所述第二实体词对应的时间段内,所述目标文本所包含的状态对所述区域地图数据生效。
12.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储计算机可执行指令;
处理器,用于执行所述存储器中存储的计算机可执行指令或者计算机程序时,实现权利要求1至10任一项所述的地图数据的处理方法。
13.一种计算机可读存储介质,存储有计算机可执行指令或者计算机程序,其特征在于,所述计算机可执行指令或者计算机程序被处理器执行时实现权利要求1至10任一项所述的地图数据的处理方法。
14.一种计算机程序产品,包括计算机程序或计算机可执行指令,其特征在于,所述计算机程序或计算机可执行指令被处理器执行时,实现权利要求1至10任一项所述的地图数据的处理方法。
CN202311334767.3A 2023-10-16 2023-10-16 地图数据的处理方法、装置、电子设备以及存储介质 Active CN117093661B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311334767.3A CN117093661B (zh) 2023-10-16 2023-10-16 地图数据的处理方法、装置、电子设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311334767.3A CN117093661B (zh) 2023-10-16 2023-10-16 地图数据的处理方法、装置、电子设备以及存储介质

Publications (2)

Publication Number Publication Date
CN117093661A CN117093661A (zh) 2023-11-21
CN117093661B true CN117093661B (zh) 2024-03-15

Family

ID=88771979

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311334767.3A Active CN117093661B (zh) 2023-10-16 2023-10-16 地图数据的处理方法、装置、电子设备以及存储介质

Country Status (1)

Country Link
CN (1) CN117093661B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104794181A (zh) * 2015-04-09 2015-07-22 北京搜狗科技发展有限公司 一种基于电子地图的服务处理方法和装置
CN114330312A (zh) * 2021-11-03 2022-04-12 腾讯科技(深圳)有限公司 标题文本处理方法、装置、存储介质和程序
CN114519061A (zh) * 2022-02-16 2022-05-20 北京百度网讯科技有限公司 地图数据更新方法、装置、电子设备和介质
WO2022174552A1 (zh) * 2021-02-22 2022-08-25 北京百度网讯科技有限公司 获取poi状态信息的方法及装置
CN115495464A (zh) * 2022-09-26 2022-12-20 北京百度网讯科技有限公司 地图更新方法、装置、电子设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104794181A (zh) * 2015-04-09 2015-07-22 北京搜狗科技发展有限公司 一种基于电子地图的服务处理方法和装置
WO2022174552A1 (zh) * 2021-02-22 2022-08-25 北京百度网讯科技有限公司 获取poi状态信息的方法及装置
CN114330312A (zh) * 2021-11-03 2022-04-12 腾讯科技(深圳)有限公司 标题文本处理方法、装置、存储介质和程序
CN114519061A (zh) * 2022-02-16 2022-05-20 北京百度网讯科技有限公司 地图数据更新方法、装置、电子设备和介质
CN115495464A (zh) * 2022-09-26 2022-12-20 北京百度网讯科技有限公司 地图更新方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN117093661A (zh) 2023-11-21

Similar Documents

Publication Publication Date Title
CN104820629B (zh) 一种智能的舆情突发事件应急处理系统及方法
CN110555568B (zh) 一种基于社交网络信息的道路交通运行状态实时感知方法
CN110968695A (zh) 基于弱监督技术主动学习的智能标注方法、装置及平台
CN116702737B (zh) 文案生成方法、装置、设备、存储介质及产品
CN104318340A (zh) 基于文本履历信息的信息可视化方法及智能可视分析系统
CN105518647A (zh) 用于创建和实施人工智能代理或系统的系统和方法
Azhar et al. Detection and prediction of traffic accidents using deep learning techniques
Peng et al. A forecast model of tourism demand driven by social network data
CN114818707A (zh) 一种基于知识图谱的自动驾驶决策方法和系统
Bobek et al. KnAC: an approach for enhancing cluster analysis with background knowledge and explanations
CN112579771B (zh) 一种内容的标题检测方法及装置
CN117093661B (zh) 地图数据的处理方法、装置、电子设备以及存储介质
CN117312562A (zh) 内容审核模型的训练方法、装置、设备及存储介质
Du et al. Safety in Traffic Management Systems: A Comprehensive Survey
CN111209750A (zh) 车联网威胁情报建模方法、装置及可读存储介质
Jordanov et al. Knowledge-based and intelligent information and engineering systems
CN113656560B (zh) 情感类别的预测方法和装置、存储介质及电子设备
CN114626370A (zh) 训练方法、风险预警方法、装置、设备、介质和程序产品
CN115204393A (zh) 一种基于知识图谱的智慧城市知识本体库构建方法和装置
CN114519505A (zh) 铁路客站的设备管理策略生成方法及系统
CN114996435A (zh) 基于人工智能的信息推荐方法、装置、设备及存储介质
Arafat et al. Hydrating large-scale coronavirus pandemic tweets: A review of software for transportation research
You et al. Video rumor classification based on multi-modal theme and keyframe fusion
Yang et al. Design of intelligent module design for humanoid translation robot by combining the deep learning with blockchain technology
Jin-Yuan et al. PHP Implementation of a Comprehensive Evaluation Platform for Innovative Talent Training Quality based on Internet Data Clustering and Integration

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant