CN117251650B - 地理热点中心识别方法、装置、计算机设备和存储介质 - Google Patents
地理热点中心识别方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN117251650B CN117251650B CN202311547326.1A CN202311547326A CN117251650B CN 117251650 B CN117251650 B CN 117251650B CN 202311547326 A CN202311547326 A CN 202311547326A CN 117251650 B CN117251650 B CN 117251650B
- Authority
- CN
- China
- Prior art keywords
- geographic
- initial
- hotspot
- model
- focus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000012549 training Methods 0.000 claims abstract description 96
- 238000002372 labelling Methods 0.000 claims abstract description 85
- 230000008859 change Effects 0.000 claims description 41
- 230000006870 function Effects 0.000 claims description 24
- 239000013598 vector Substances 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 15
- 238000012216 screening Methods 0.000 claims description 8
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 description 6
- 230000001364 causal effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000002457 bidirectional effect Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 150000001875 compounds Chemical class 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000007480 spreading Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 101100153586 Caenorhabditis elegans top-1 gene Proteins 0.000 description 1
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 238000006424 Flood reaction Methods 0.000 description 1
- 101100370075 Mus musculus Top1 gene Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及一种地理热点中心识别方法、装置、计算机设备和存储介质。所述方法包括:获取网络热点文本数据,所述网络热点文本数据包括未标注样本,将所述未标注样本输入初始标注模型,得到标注地理名称标签的训练样本,将所述标注地理名称标签的训练样本输入初始焦点识别模型,通过设定焦点判定规则,将所述训练样本中符合规则要求的位置信息赋予焦点属性,得到初始地理热点中心,基于所述初始地理热点中心和标准样本集训练所述初始标注模型和初始焦点识别模型,得到目标地理热点中心识别模型,将待识别网络热点文本输入目标地理热点中心识别模型,得到目标地理热点中心,提高了自然灾害地理热点中心识别的准确率。
Description
技术领域
本申请涉及语言学与数据挖掘技术领域,特别是涉及一种地理热点中心识别方法、装置、计算机设备和存储介质。
背景技术
随着网络信息技术的快速发展,在洪灾、台风、泥石流、雪灾等自然灾害发生的生命周期内,社交媒体平台会产生海量关于当前自然灾害的热点数据,并且这些数据中存在大量的地理位置信息。如果能够精准识别出地理位置信息,就能从网络言论讨论热点的角度对自然灾害进行表征,网络言论是网络用户观点的集中体现,这些观点中蕴含的地理位置信息能更加有效地从网络层面体现自然灾害。因此,如何从社交媒体数据中准确地识别出可代表网络言论的地理位置信息是一个重要的研究内容。
现有技术中,通常是采用基于规则、基于种子概念、基于深度学习、基于统计、基于混合等方法进行中文地理位置识别,但是由于地名识别因语言本身的差异使得其识别难度大于英文,且要获得较高的识别精度,就需要投入大量的人工完成语料标注工作。另外,现有研究中大都直接使用社交媒体数据中识别出的所有中文地理位置信息来表征网络言论的地理特征,并将其用于灾情治理工作中,但文本中的位置信息并非都是用户真正关注的,导致识别出大量的无效位置,不仅降低表征的准确率,影响相关部门的工作效率,还会造成管理资源的浪费,甚至使潜在自然灾害迅速蔓延,造成更大的损失。
因此,相关技术中亟需一种能够提高自然灾害地理热点中心识别准确率的方式。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高自然灾害地理热点中心识别准确率的地理热点中心识别方法、装置、计算机设备和计算机可读存储介质。
第一方面,本申请提供了一种地理热点中心识别方法。所述方法包括:
获取网络热点文本数据,所述网络热点文本数据包括未标注样本;
将所述未标注样本输入初始标注模型,得到标注地理名称标签的训练样本;
将所述标注地理名称标签的训练样本输入初始焦点识别模型,通过设定焦点判定规则,将所述训练样本中符合规则要求的位置信息赋予焦点属性,得到初始地理热点中心;
基于所述初始地理热点中心和标准样本集训练所述初始标注模型和初始焦点识别模型,得到目标地理热点中心识别模型;
将待识别网络热点文本输入目标地理热点中心识别模型,得到目标地理热点中心。
可选的,在本申请的一个实施例中,所述初始标注模型用于:
识别所述未标注样本的命名实体,并采用主动学习策略对多个地理命名实体及对应的类别概率进行排序,确定符合标准的地理命名实体和对应的类别概率;
将所述地理命名实体和对应的类别概率输入标签模型,得到标注地理名称标签的训练样本。
可选的,在本申请的一个实施例中,所述识别所述未标注样本的命名实体,并采用主动学习策略对多个地理命名实体及对应的类别概率进行排序,确定符合标准的地理命名实体和对应的类别概率包括:
采用实体识别模型识别所述未标注样本的命名实体,得到初始样本标注信息;
基于所述初始样本标注信息确定不确定度、不稳定度和相似性指标;
基于所述不确定度、不稳定度和相似性指标筛选初始样本标注信息,得到符合标准的地理命名实体和对应的类别概率。
可选的,在本申请的一个实施例中,所述网络热点文本数据包括已标注样本,所述将所述地理命名实体和对应的类别概率输入标签模型,得到标注地理名称标签的训练样本之前包括:
基于所述已标注样本确定地理命名实体和对应的类别概率,采用所述已标注样本及地理命名实体和对应的类别概率训练初始标签模型,得到标签模型,其中,所述已标注样本包括网络热点文本数据和标准地理名称标签。
可选的,在本申请的一个实施例中,所述将所述标注地理名称标签的训练样本输入初始焦点识别模型,通过设定焦点判定规则,将所述训练样本中符合规则要求的位置信息赋予焦点属性,得到初始地理热点中心包括:
设置所述初始焦点识别模型的初始焦点判定规则;
获得所述标注地理名称标签的训练样本的特征向量,将所述特征向量输入所述初始焦点识别模型,对其中符合规则要求的位置信息赋予焦点属性,得到初始地理热点中心。
可选的,在本申请的一个实施例中,所述基于所述初始地理热点中心和标准样本集训练所述初始标注模型和初始焦点识别模型,得到目标地理热点中心识别模型包括:
基于所述初始地理热点中心和标准样本集确定迭代变化率,基于所述迭代变化率调整所述初始标注模型和初始焦点识别模型,得到目标地理热点中心识别模型。
可选的,在本申请的一个实施例中,所述基于所述初始地理热点中心和标准样本集确定迭代变化率,基于所述迭代变化率调整所述初始标注模型和初始焦点识别模型,得到目标热点中心识别模型包括:
基于所述初始地理热点中心和标准样本集确定精确率和召回率,基于所述精确率和召回率确定有效函数;
基于所述有效函数确定迭代变化率,当所述有效函数值最大且迭代变化率不大于预设阈值时,得到目标标注模型和目标焦点识别模型。
第二方面,本申请还提供了一种地理热点中心识别装置。所述装置包括:
网络热点文本数据获取模块,用于获取网络热点文本数据,所述网络热点文本数据包括未标注样本;
训练样本确定模块,用于将所述未标注样本输入初始标注模型,得到标注地理名称标签的训练样本;
初始地理热点中心确定模块,用于将所述标注地理名称标签的训练样本输入初始焦点识别模型,通过设定焦点判定规则,将所述训练样本中符合规则要求的位置信息赋予焦点属性,得到初始地理热点中心;
目标地理热点中心识别模型确定模块,用于基于所述初始地理热点中心和标准样本集训练所述初始标注模型和初始焦点识别模型,得到目标地理热点中心识别模型;
目标地理热点中心识别模块,用于将待识别网络热点文本输入目标地理热点中心识别模型,得到目标地理热点中心。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行上述各个实施例所述方法的步骤。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述各个实施例所述方法的步骤。
上述地理热点中心识别方法、装置、计算机设备和存储介质,首先,获取网络热点文本数据,所述网络热点文本数据包括未标注样本,之后,将所述未标注样本输入初始标注模型,得到标注地理名称标签的训练样本,之后,将所述标注地理名称标签的训练样本输入初始焦点识别模型,通过设定焦点判定规则,将所述训练样本中符合规则要求的位置信息赋予焦点属性,得到初始地理热点中心,之后,基于所述初始地理热点中心和标准样本集训练所述初始标注模型和初始焦点识别模型,得到目标地理热点中心识别模型,最后,将待识别网络热点文本输入目标地理热点中心识别模型,得到目标地理热点中心。也就是说,当自然灾害发生时,用户会通过社交网络发布相关的观点,其中会涉及位置信息,通过标注模型将其中所有的位置信息标识出来,并经过焦点识别模型,识别并输出其中具有焦点属性的位置信息,即地理热点中心,提高了自然灾害地理热点中心识别的准确率,并能够准确表征自然灾害地理热点中心,进一步地,给相关部门的工作提供了理论依据,能够尽早的进行人工干预,防止自然灾害的进一步蔓延,最大程度降低各方面的损失。
附图说明
图1为一个实施例中地理热点中心识别方法的应用环境图;
图2为一个实施例中地理热点中心识别方法的流程示意图;
图3为一个实施例中地理热点中心识别方法具体实施步骤的流程示意图;
图4为一个实施例中地理热点中心识别装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的地理热点中心识别方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种地理热点中心识别方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
S201:获取网络热点文本数据,所述网络热点文本数据包括未标注样本。
本申请实施例中,首先,获取网络热点文本数据,网络热点文本数据指从社交网络平台通过爬虫的方式获取的网民发布的代表自己观点、可能与自然灾害相关的文本数据,例如“虽然城市1和城市2都处在某河流边,但是城市2受灾较轻”、“城市2的天气不错,但是城市1下暴雨了,太吓人了”等类似的文本,具体应用中,通过设定关键词、截取时间、发布地点等,获取在社交网络平台上发布的与自然灾害相关的所有文本数据,组成网络热点文本数据,未经过任何处理的网络热点文本数据为未标注样本。
S203:将所述未标注样本输入初始标注模型,得到标注地理名称标签的训练样本。
本申请实施例中,在获取网络热点文本数据之后,将未标注样本输入初始标注模型,得到标注地理名称标签的训练样本,即给文本中的地理名称加上了标签,标注出代表地理位置的名词。具体的,初始标注模型包括地理名称识别部分和添加地理名称标签的部分。以“虽然城市1和城市2都处在某河流边,但是城市2受灾较轻”为例,在输入初始标注模型之后,就会输出一个带有地理名称标签的文本,其中城市1、城市2、某河流被标注为地理名称。
S205:将所述标注地理名称标签的训练样本输入初始焦点识别模型,通过设定焦点判定规则,将所述训练样本中符合规则要求的位置信息赋予焦点属性,得到初始地理热点中心。
本申请实施例中,在得到标注地理名称标签的训练样本之后,将其输入初始焦点识别模型,初始焦点识别模型的作用是能够识别出用户真正关注的焦点,即地理热点中心,例如“城市2的天气不错,但是城市1下暴雨了,太吓人了”中用户真正关注的位置信息为城市1。通过设定焦点判定规则,将训练样本中符合规则要求的位置信息赋予焦点属性,得到初始地理热点中心,具体的,焦点判定规则包括通过焦点标识字词、焦点算子、焦点结构、复句结构特征等,结合焦点判定规则,识别句子中符合规则要求的位置信息,将其标注并输出,即得到初始地理热点中心,也就是用户真正关注的焦点。
S207:基于所述初始地理热点中心和标准样本集训练所述初始标注模型和初始焦点识别模型,得到目标地理热点中心识别模型。
本申请实施例中,在得到初始地理热点中心之后,基于初始地理热点中心和标准样本集训练初始标注模型和初始焦点识别模型,即通过多次迭代训练,不断调整初始标注模型和初始焦点识别模型的参数,并设置停止指标,当模型输出结果符合停止指标时,当前的标注模型和焦点识别模型即为目标地理热点中心识别模型。
S209:将待识别网络热点文本输入目标地理热点中心识别模型,得到目标地理热点中心。
本申请实施例中,在得到目标地理热点中心识别模型之后,将待识别网络热点文本数据输入目标地理热点中心识别模型,经过目标标注模型和目标焦点识别模型,输出待识别网络热点文本中用户真正关注的焦点,即目标地理热点中心。
上述地理热点中心识别方法中,首先,获取网络热点文本数据,所述网络热点文本数据包括未标注样本,之后,将所述未标注样本输入初始标注模型,得到标注地理名称标签的训练样本,之后,将所述标注地理名称标签的训练样本输入初始焦点识别模型,通过设定焦点判定规则,将所述训练样本中符合规则要求的位置信息赋予焦点属性,得到初始地理热点中心,之后,基于所述初始地理热点中心和标准样本集训练所述初始标注模型和初始焦点识别模型,得到目标地理热点中心识别模型,最后,将待识别网络热点文本输入目标地理热点中心识别模型,得到目标地理热点中心。也就是说,当自然灾害发生时,用户会通过社交网络发布相关的观点,其中会涉及位置信息,通过标注模型将其中所有的位置信息标识出来,并经过焦点识别模型,识别并输出其中具有焦点属性的位置信息,即地理热点中心,提高了自然灾害地理热点中心识别的准确率,并能够准确表征自然灾害地理热点中心,进一步地,给相关部门的工作提供了理论依据,能够尽早的进行人工干预,防止自然灾害的进一步蔓延,最大程度降低各方面的损失。
在本申请的一个实施例中,所述初始标注模型用于:
S301:识别所述未标注样本的命名实体,并采用主动学习策略对多个地理命名实体及对应的类别概率进行排序,确定符合标准的地理命名实体和对应的类别概率。
S303:将所述地理命名实体和对应的类别概率输入标签模型,得到标注地理名称标签的训练样本。
在本申请的一个实施例中,初始标注模型包括用于识别地理命名实体的地理名称识别部分和用于给样本添加地理名称标签的标签预测部分。可选的,地理名称识别部分采用双向门控循环单元(bidirectional gated recurrent units,BiGRU)以及优化的条件随机场(Conditional RandomFields,CRF)算法实现,通过BiGRU+CRF算法,输出多个地理命名实体和对应的类别概率。之后,采用主动学习策略,根据概率分布信息计算相关指标,结合指标对多个地理命名实体及对应的类别概率进行排序,确定符合标准即指标最高的地理命名实体和对应的类别概率。之后,标签预测部分继续给样本添加地理名称标签,将地理命名实体和对应的类别概率输入标签模型,输出地理命名实体的标签序列,并由专家进行人工校正,得到最终的标注地理名称标签的训练样本。
本实施例中,通过识别未标注样本的命名实体,并采用主动学习策略对多个地理命名实体及对应的类别概率进行排序,确定符合标准的地理命名实体和对应的类别概率,将地理命名实体和对应的类别概率输入标签模型,得到地理命名实体的标签序列,能够实现对未标注样本的自动化标注。
在本申请的一个实施例中,所述识别所述未标注样本的命名实体,并采用主动学习策略对多个地理命名实体及对应的类别概率进行排序,确定符合标准的地理命名实体和对应的类别概率包括:
S401:采用实体识别模型识别所述未标注样本的命名实体,得到初始样本标注信息。
S403:基于所述初始样本标注信息确定不确定度、不稳定度和相似性指标。
S405:基于所述不确定度、不稳定度和相似性指标筛选初始样本标注信息,得到符合标准的地理命名实体和对应的类别概率。
在本申请的一个实施例中,首先,采用实体识别模型识别未标注样本的命名实体,得到初始样本标注信息,具体的,将未标注样本输入双向编码器(Bidirectional EncoderRepresentation from Transformers,BERT)预训练模型,得到向量,并将向量输入BiGRU+CRF模型识别未标注样本的命名实体,输出预信息,即多个命名实体和对应的类别概率信息,得到初始样本标注信息包括条件随机场CRF中标签预测概率和大于等于0.9的概率分布、当前文本当前次标注信息即样本的多个概率结果不同的尾标签。之后,基于初始样本标注信息分别进行不确定度、不稳定度和相似性指标的计算。
具体的,不确定度指动态方差熵SI,根据预信息中的样本类别概率分布计算各概率的熵,得到熵集合I=[I 1 ,I 2 ,…I n ],并在此基础上计算该集合值的标准差的倒数,即动态方差熵SI,具体计算方式如下述公式所示:
;
;
其中,表示熵集合的均值,表示类别概率信息中的第i个概率。
不稳定度指模型预测概率的不稳定性TC,累计待挑选样本集中各样本的预信息中的标注信息,具体计算方式如下述公式所示:
;
其中,C表示累计的标注信息去重后的个数C,T表示累计标注次数。
相似性指标是通过对于识别出地理命名实体的样本,构建语义图、实现实体单元的图嵌入表示,并综合考虑预训练模型对实体的嵌入表示,得到每个实体单元的向量表示,将样本中多个实体单元的向量表示取均值可得当前样本的向量表示E,采用余弦相似度计算该向量与已标注样本i的相似性,并在此基础上计算相似性指标ES。具体计算方式如下述公式所示:
;
;
其中,表示当前样本的向量,表示已标注样本i的向量表示,“”表示E与Ei进行点乘,表示计算E的模长,表示计算Ei的模长。
最后,基于不确定度SI、不稳定度TC以及相似性指标ES筛选初始样本标注信息,得到符合标准的地理命名实体和对应的类别概率,即计算综合指标AI,根据指标AI选择指标结果最高top-1的样本标注信息,将其他不满足要求的样本标注信息和对应的样本共同放回未标注样本中继续参与迭代训练。综合指标AI的具体计算方式如下述公式所示:
;
本实施例中,通过采用实体识别模型识别未标注样本的命名实体,得到初始样本标注信息,基于初始样本标注信息确定不确定度、不稳定度和相似性指标,基于不确定度、不稳定度和相似性指标筛选初始样本标注信息,得到符合标准的地理命名实体和对应的类别概率,采用主动学习策略进行初步筛选,能够得到概率最高、最准确的地理名称标注。
在本申请的一个实施例中,所述网络热点文本数据包括已标注样本,所述将所述地理命名实体和对应的类别概率输入标签模型,得到地理命名实体的标签序列之前包括:
基于所述已标注样本确定地理命名实体和对应的类别概率,采用所述已标注样本及地理命名实体和对应的类别概率训练初始标签模型,得到标签模型,其中,所述已标注样本包括网络热点文本数据和标准地理名称标签。
在本申请的一个实施例中,获取的网络热点文本数据还包括已标注样本Few-shotsample,为高质量样本集,即给文本中出现的地理名称添加了标签,该标注工作由专家人工完成,为标准标签预测结果。在将地理命名实体和对应的类别概率输入标签模型得到地理命名实体的标签序列之前,需要对标签模型进行训练,具体的,采用已标注样本训练初始标签模型,初始标签模型采用大规模语言模型(Large-scale language models,LLMs),基于已标注样本确定其对应的地理命名实体和类别概率,将已标注样本中的网络热点文本数据和对应的地理命名实体和类别概率输入初始标签模型,输出初始地理名称标签,基于初始地理名称标签和标准地理名称标签确定预测准确率,结合预测准确率调整初始标签模型的参数,直到预测准确率符合标准时,模型训练完成,得到标签模型。
本实施例中,通过采用已标注样本训练初始标签模型,能够使标签模型输出准确的结果。
在本申请的一个实施例中,所述将所述标注地理名称标签的训练样本输入初始焦点识别模型,通过设定焦点判定规则,将所述训练样本中符合规则要求的位置信息赋予焦点属性,得到初始地理热点中心包括:
S501:设置所述初始焦点识别模型的初始焦点判定规则。
S503:获得所述标注地理名称标签的训练样本的特征向量,将所述特征向量输入所述初始焦点识别模型,对其中符合规则要求的位置信息赋予焦点属性,得到初始地理热点中心。
在本申请的一个实施例中,初始焦点识别模型可以采用双向门控循环单元(bidirectional gated recurrent units,BiGRU)以及概率软逻辑(ProbabilisticSoftLogic,PSL)算法实现,将语言学中的焦点判定规则转化为统计模型,通过设置焦点判定规则赋予对应的位置信息焦点属性,得到初始地理热点中心。具体的,使用BERT预训练模型获得标注地理名称标签的训练样本的特征向量,设置初始焦点判定规则,将特征向量输入初始焦点识别模型,对其中符合规则要求的位置信息赋予焦点属性,其中,初始焦点判定规则的设置与焦点标识字词、焦点算子、焦点结构、复句结构特征等相关,具体设置如下述所示。
对于单句类型,本根据焦点标识字词、焦点算子以及焦点结构实现焦点的判定,如下表所示。
对于“焦点标识字词”类,若句子中存在具有焦点标识字词,则该句子是“存在焦点标识字词”,设“存在焦点标识字词()”为谓语,Loc为文本,则该原子语句可表示为:
;
同理可得如下原子语句:
;
;
如果文本中的地理命名实体属于判定标识修饰的部分,则该句子的地理命名实体“是修饰部分”,设“是修饰部分()”为谓语,可设置如下原子语句:
;
对于复句类型,根据复句结构特征将复句焦点判定分为5类(其中焦点部分用括号标出),如下表所示。
对于复句类型“因果关系”,若句子中存在标识因果关系的标志词,则该句子是“存在因果关系”,设“存在因果关系()”为谓语,Loc为文本,则该原子语句可表示为:
;
同样的方法可得如下原子语句:
;
;
;
;
如果文本中的地理命名实体属于“因果关系”类的复句中的焦点部分,则该句子的地理命名实体“是结果部分”,设“是结果部分()”为谓语,可设置如下的原子语句:
;
;
;
设定如下原子语句,用于判断文本Loc属于复句:
;
单焦点是指文本Loc中只存在一个焦点部分,设置如下原子语句:
;
与单焦点相反的多焦点指文本Loc中存在多个焦点部分,对于多焦点问题,依据“三原则”进行焦点筛选:尾重原则,焦点侧重于句尾的实词位置;深重原则,焦点侧重于句子结构内嵌最深的实词位置;辅重原则,焦点侧重于句子补足语、附加语、指示语。可设置如下原子语句:
;
;
;
考虑到文本Loc中可能不存在地理命名实体,设置如下原子语句:
;
为PSL规则集中的body部分,head部分为确定的焦点类型的结果,head部分的原子语句定义如下:
;
;
;
;
;
;
;
;
;
;
使用原子语句l i 、析取(∨)、合取(∧)及否定(¬)符号,可实现不同焦点类型的定义如下:
;
;
;
;
;
;
;
;
;
;
本实施例中,通过设置初始焦点识别模型的初始焦点判定规则,获得所述标注地理名称标签的训练样本的特征向量,将所述特征向量输入所述初始焦点识别模型,对其中符合规则要求的位置信息赋予焦点属性,得到初始地理热点中心,能够得到准确的焦点地理位置信息,提高了自然灾害地理热点中心识别的准确率,为减少热点及灾情治理过程中的资源消耗提供了技术支持。
在本申请的一个实施例中,所述基于所述初始地理热点中心和标准样本集训练所述初始标注模型和初始焦点识别模型,得到目标地理热点中心识别模型包括:
基于所述初始地理热点中心和标准样本集确定迭代变化率,基于所述迭代变化率调整所述初始标注模型和初始焦点识别模型,得到目标地理热点中心识别模型。
在本申请的一个实施例中,在得到初始地理热点中心之后,基于初始地理热点中心和标准样本集确定迭代变化率,其中,标准样本集指正类结果即准确的地理热点中心预测结果,迭代变化率指训练过程中,多次迭代的结果的变化值。基于迭代变化率调整初始标注模型和初始焦点识别模型,即当迭代变化率越来越小且最终趋于稳定时,确定标注模型和焦点识别模型训练完成,即得到目标地理热点中心识别模型。
本实施例中,通过基于初始地理热点中心和标准样本集确定迭代变化率,基于迭代变化率调整所述初始标注模型和初始焦点识别模型,得到目标地理热点中心识别模型,能够实现初始模型的参数调整,使目标地理热点中心识别模型的识别结果更准确。
在本申请的一个实施例中,所述基于所述初始地理热点中心和标准样本集确定迭代变化率,基于所述迭代变化率调整所述初始标注模型和初始焦点识别模型,得到目标热点中心识别模型包括:
S601:基于所述初始地理热点中心和标准样本集确定精确率和召回率,基于所述精确率和召回率确定有效函数。
S603:基于所述有效函数确定迭代变化率,当所述有效函数值最大且迭代变化率不大于预设阈值时,得到目标标注模型和目标焦点识别模型。
在本申请的一个实施例中,首先,基于初始地理热点中心和标准样本集分别确定精确率和召回率,并基于精确率和召回率确定有效函数。具体的,精确率表示识别准确性,召回率表示识别完整性,都与正类结果即准确的地理热点中心预测结果和负类结果即错误的地理热点中心预测结果相关,具体计算方式如下述公式所示:
;
;
;
其中,P表示精确率,R表示召回率,F1表示有效函数,TP表示将正类预测为正类的个数,FP表示将负类预测为正类的个数,FN表示将正类预测为负类的个数。
之后,基于有效函数确定迭代变化率,即经过多次迭代,判断前后两次迭代的有效函数值F1的变化率,当某次迭代训练的有效函数值最大且与前一次迭代训练的迭代变化率不大于预设阈值时,确定当前标注模型和焦点识别模型为目标标注模型和目标焦点识别模型,其中,预设阈值通过大量实验所得,优选的,此处设置为0.5%。
本实施例中,通过基于初始地理热点中心和标准样本集确定精确率和召回率,基于精确率和召回率确定有效函数,基于有效函数确定迭代变化率,当有效函数值最大且迭代变化率不大于预设阈值时,得到目标标注模型和目标焦点识别模型,能够通过指标准确判断模型是否训练完成,使目标地理热点中心识别模型的识别结果更准确。
下面以一个具体实施例说明本申请的地理热点中心识别方法的具体实施步骤,如图3所示,首先,S701,获取网络热点文本数据,所述网络热点文本数据包括未标注样本。之后,S703,将所述未标注样本输入初始标注模型,得到标注地理名称标签的训练样本。具体的,初始标注模型用于S705-S707,识别所述未标注样本的命名实体,并采用主动学习策略对多个地理命名实体及对应的类别概率进行排序,确定符合标准的地理命名实体和对应的类别概率;将所述地理命名实体和对应的类别概率输入标签模型,得到标注地理名称标签的训练样本。具体的,S709-S713,采用实体识别模型识别所述未标注样本的命名实体,得到初始样本标注信息;基于所述初始样本标注信息确定不确定度、不稳定度和相似性指标;基于所述不确定度、不稳定度和相似性指标筛选初始样本标注信息,得到符合标准的地理命名实体和对应的类别概率。
另外,在将所述地理命名实体和对应的类别概率输入标签模型,得到地理命名实体的标签序列之前,还包括S715,采用所述已标注样本训练初始标签模型,得到标签模型,其中,所述已标注样本包括网络热点文本数据和标准地理名称标签。
之后,S717,将所述标注地理名称标签的训练样本输入初始焦点识别模型,通过设定焦点判定规则,将所述训练样本中符合规则要求的位置信息赋予焦点属性,得到初始地理热点中心。具体的,S719-S721,设置所述初始焦点识别模型的初始焦点判定规则;获得所述标注地理名称标签的训练样本的特征向量,将所述特征向量输入所述初始焦点识别模型,对其中符合规则要求的位置信息赋予焦点属性,得到初始地理热点中心。
之后,S723,基于所述初始地理热点中心和标准样本集训练所述初始标注模型和初始焦点识别模型,得到目标地理热点中心识别模型。具体的,S725,基于所述初始地理热点中心和标准样本集确定迭代变化率,基于所述迭代变化率调整所述初始标注模型和初始焦点识别模型,得到目标地理热点中心识别模型。具体的,S727-729,基于所述初始地理热点中心和标准样本集确定精确率和召回率,基于所述精确率和召回率确定有效函数;基于所述有效函数确定迭代变化率,当所述有效函数值最大且迭代变化率不大于预设阈值时,得到目标标注模型和目标焦点识别模型。
最后,S731,将待识别网络热点文本输入目标地理热点中心识别模型,得到目标地理热点中心。
需要说明的是,在本申请的一个实施例中,在得到标注地理名称标签的训练样本之后,可选的,将其分为训练标注样本和测试样本,其中训练标注样本用于多次迭代训练标注模型和焦点识别模型,并进行迭代变化率的计算,测试样本用于测试目标地理热点中心识别模型的有效性。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的地理热点中心识别方法的地理热点中心识别装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个地理热点中心识别装置实施例中的具体限定可以参见上文中对于地理热点中心识别方法的限定,在此不再赘述。
在一个实施例中,如图4所示,提供了一种地理热点中心识别装置400,包括:网络热点文本数据获取模块401、训练样本确定模块403、初始地理热点中心确定模块405、目标地理热点中心识别模型确定模块407和目标地理热点中心识别模块409,其中:
网络热点文本数据获取模块401,用于获取网络热点文本数据,所述网络热点文本数据包括未标注样本;
训练样本确定模块403,用于将所述未标注样本输入初始标注模型,得到标注地理名称标签的训练样本;
初始地理热点中心确定模块405,用于将所述标注地理名称标签的训练样本输入初始焦点识别模型,通过设定焦点判定规则,将所述训练样本中符合规则要求的位置信息赋予焦点属性,得到初始地理热点中心;
目标地理热点中心识别模型确定模块407,用于基于所述初始地理热点中心和标准样本集训练所述初始标注模型和初始焦点识别模型,得到目标地理热点中心识别模型;
目标地理热点中心识别模块409,用于将待识别网络热点文本输入目标地理热点中心识别模型,得到目标地理热点中心。
在本申请的一个实施例中,所述训练样本确定模块还用于:
识别所述未标注样本的命名实体,并采用主动学习策略对多个地理命名实体及对应的类别概率进行排序,确定符合标准的地理命名实体和对应的类别概率;
将所述地理命名实体和对应的类别概率输入标签模型,得到标注地理名称标签的训练样本。
在本申请的一个实施例中,所述训练样本确定模块还用于:
采用实体识别模型识别所述未标注样本的命名实体,得到初始样本标注信息;
基于所述初始样本标注信息确定不确定度、不稳定度和相似性指标;
基于所述不确定度、不稳定度和相似性指标筛选初始样本标注信息,得到符合标准的地理命名实体和对应的类别概率。
所述地理热点中心识别装置还包括标签模型训练模块。
在本申请的一个实施例中,所述网络热点文本数据包括已标注样本,所述标签模型训练模块用于:
采用所述已标注样本训练初始标签模型,得到标签模型,其中,所述已标注样本包括网络热点文本数据和标准地理名称标签。
在本申请的一个实施例中,所述初始地理热点中心确定模块还用于:
设置所述初始焦点识别模型的初始焦点判定规则;
获得所述标注地理名称标签的训练样本的特征向量,将所述特征向量输入所述初始焦点识别模型,对其中符合规则要求的位置信息赋予焦点属性,得到初始地理热点中心。
在本申请的一个实施例中,所述目标地理热点中心识别模型确定模块还用于:
基于所述初始地理热点中心和标准样本集确定迭代变化率,基于所述迭代变化率调整所述初始标注模型和初始焦点识别模型,得到目标地理热点中心识别模型。
在本申请的一个实施例中,所述目标地理热点中心识别模型确定模块还用于:
基于所述初始地理热点中心和标准样本集确定精确率和召回率,基于所述精确率和召回率确定有效函数;
基于所述有效函数确定迭代变化率,当所述有效函数值最大且迭代变化率不大于预设阈值时,得到目标标注模型和目标焦点识别模型。
上述地理热点中心识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种地理热点中心识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random AccessMemory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (9)
1.一种地理热点中心识别方法,其特征在于,所述方法包括:
获取网络热点文本数据,所述网络热点文本数据包括未标注样本;
将所述未标注样本输入初始标注模型,得到标注地理名称标签的训练样本;
将所述标注地理名称标签的训练样本输入初始焦点识别模型,通过设定焦点判定规则,将所述训练样本中符合规则要求的位置信息赋予焦点属性,得到初始地理热点中心;
基于所述初始地理热点中心和标准样本集训练所述初始标注模型和初始焦点识别模型,得到目标地理热点中心识别模型;
将待识别网络热点文本输入目标地理热点中心识别模型,得到目标地理热点中心;
所述初始标注模型用于:
识别所述未标注样本的命名实体,并采用主动学习策略对多个地理命名实体及对应的类别概率进行排序,确定符合标准的地理命名实体和对应的类别概率;
将所述地理命名实体和对应的类别概率输入标签模型,得到标注地理名称标签的训练样本。
2.根据权利要求1所述的方法,其特征在于,所述识别所述未标注样本的命名实体,并采用主动学习策略对多个地理命名实体及对应的类别概率进行排序,确定符合标准的地理命名实体和对应的类别概率包括:
采用实体识别模型识别所述未标注样本的命名实体,得到初始样本标注信息;
基于所述初始样本标注信息确定不确定度、不稳定度和相似性指标;
基于所述不确定度、不稳定度和相似性指标筛选初始样本标注信息,得到符合标准的地理命名实体和对应的类别概率。
3.根据权利要求1所述的方法,其特征在于,所述网络热点文本数据包括已标注样本,所述将所述地理命名实体和对应的类别概率输入标签模型,得到标注地理名称标签的训练样本之前包括:
基于所述已标注样本确定地理命名实体和对应的类别概率,采用所述已标注样本及地理命名实体和对应的类别概率训练初始标签模型,得到标签模型,其中,所述已标注样本包括网络热点文本数据和标准地理名称标签。
4.根据权利要求1所述的方法,其特征在于,所述将所述标注地理名称标签的训练样本输入初始焦点识别模型,通过设定焦点判定规则,将所述训练样本中符合规则要求的位置信息赋予焦点属性,得到初始地理热点中心包括:
设置所述初始焦点识别模型的初始焦点判定规则;
获得所述标注地理名称标签的训练样本的特征向量,将所述特征向量输入所述初始焦点识别模型,对其中符合规则要求的位置信息赋予焦点属性,得到初始地理热点中心。
5.根据权利要求1所述的方法,其特征在于,所述基于所述初始地理热点中心和标准样本集训练所述初始标注模型和初始焦点识别模型,得到目标地理热点中心识别模型包括:
基于所述初始地理热点中心和标准样本集确定迭代变化率,基于所述迭代变化率调整所述初始标注模型和初始焦点识别模型,得到目标地理热点中心识别模型。
6.根据权利要求5所述的方法,其特征在于,所述基于所述初始地理热点中心和标准样本集确定迭代变化率,基于所述迭代变化率调整所述初始标注模型和初始焦点识别模型,得到目标热点中心识别模型包括:
基于所述初始地理热点中心和标准样本集确定精确率和召回率,基于所述精确率和召回率确定有效函数;
基于所述有效函数确定迭代变化率,当所述有效函数值最大且迭代变化率不大于预设阈值时,得到目标标注模型和目标焦点识别模型。
7.一种地理热点中心识别装置,其特征在于,所述装置包括:
网络热点文本数据获取模块,用于获取网络热点文本数据,所述网络热点文本数据包括未标注样本;
训练样本确定模块,用于将所述未标注样本输入初始标注模型,得到标注地理名称标签的训练样本;
初始地理热点中心确定模块,用于将所述标注地理名称标签的训练样本输入初始焦点识别模型,通过设定焦点判定规则,将所述训练样本中符合规则要求的位置信息赋予焦点属性,得到初始地理热点中心;
目标地理热点中心识别模型确定模块,用于基于所述初始地理热点中心和标准样本集训练所述初始标注模型和初始焦点识别模型,得到目标地理热点中心识别模型;
目标地理热点中心识别模块,用于将待识别网络热点文本输入目标地理热点中心识别模型,得到目标地理热点中心;
所述初始标注模型用于:
识别所述未标注样本的命名实体,并采用主动学习策略对多个地理命名实体及对应的类别概率进行排序,确定符合标准的地理命名实体和对应的类别概率;
将所述地理命名实体和对应的类别概率输入标签模型,得到标注地理名称标签的训练样本。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至权利要求6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至权利要求6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311547326.1A CN117251650B (zh) | 2023-11-20 | 2023-11-20 | 地理热点中心识别方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311547326.1A CN117251650B (zh) | 2023-11-20 | 2023-11-20 | 地理热点中心识别方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117251650A CN117251650A (zh) | 2023-12-19 |
CN117251650B true CN117251650B (zh) | 2024-02-06 |
Family
ID=89129944
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311547326.1A Active CN117251650B (zh) | 2023-11-20 | 2023-11-20 | 地理热点中心识别方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117251650B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118113720B (zh) * | 2024-02-06 | 2024-09-03 | 贝格迈思(深圳)技术有限公司 | 适配异构计算架构的查询回答方法及计算机设备 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108595582A (zh) * | 2018-04-17 | 2018-09-28 | 北京理工大学 | 一种基于社会信号的灾害性气象热点事件识别方法 |
CN109697289A (zh) * | 2018-12-28 | 2019-04-30 | 北京工业大学 | 一种改进的用于命名实体识别的主动学习方法 |
CN110276075A (zh) * | 2019-06-21 | 2019-09-24 | 腾讯科技(深圳)有限公司 | 模型训练方法、命名实体识别方法、装置、设备及介质 |
CN110619090A (zh) * | 2019-08-05 | 2019-12-27 | 香港理工大学深圳研究院 | 一种区域吸引力评估方法及设备 |
CN110909230A (zh) * | 2019-11-27 | 2020-03-24 | 北京天元创新科技有限公司 | 一种网络热点分析方法及系统 |
CN110929517A (zh) * | 2019-11-28 | 2020-03-27 | 海南大学 | 地理位置定位方法、系统、计算机设备和存储介质 |
CN112765984A (zh) * | 2020-12-31 | 2021-05-07 | 平安资产管理有限责任公司 | 命名实体识别方法、装置、计算机设备和存储介质 |
WO2021135105A1 (zh) * | 2020-01-02 | 2021-07-08 | 平安科技(深圳)有限公司 | 基于大数据的对象识别方法、装置、设备及存储介质 |
CN113420059A (zh) * | 2021-08-23 | 2021-09-21 | 中关村科学城城市大脑股份有限公司 | 一种市民热线问题主动治理方法和装置 |
CN113449111A (zh) * | 2021-08-31 | 2021-09-28 | 苏州工业园区测绘地理信息有限公司 | 基于时空语义知识迁移的社会治理热点话题自动识别方法 |
CN114492443A (zh) * | 2022-01-24 | 2022-05-13 | 支付宝(杭州)信息技术有限公司 | 训练实体识别模型的方法及系统和实体识别方法及系统 |
WO2022142123A1 (zh) * | 2020-12-31 | 2022-07-07 | 平安科技(深圳)有限公司 | 命名实体模型的训练方法、装置、设备及介质 |
CN116245097A (zh) * | 2022-12-21 | 2023-06-09 | 阿里巴巴(中国)有限公司 | 训练实体识别模型的方法、实体识别方法及对应装置 |
CN116562296A (zh) * | 2023-05-30 | 2023-08-08 | 信雅达科技股份有限公司 | 地理命名实体识别模型训练方法及地理命名实体识别方法 |
CN116976341A (zh) * | 2022-11-23 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 实体识别方法、装置、电子设备、存储介质及程序产品 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10552461B2 (en) * | 2016-09-16 | 2020-02-04 | International Business Machines Corporation | System and method for scoring the geographic relevance of answers in a deep question answering system based on geographic context of a candidate answer |
US10902342B2 (en) * | 2016-09-16 | 2021-01-26 | International Business Machines Corporation | System and method for scoring the geographic relevance of answers in a deep question answering system based on geographic context of an input question |
CN111274815B (zh) * | 2020-01-15 | 2024-04-12 | 北京百度网讯科技有限公司 | 用于挖掘文本中的实体关注点的方法和装置 |
US11669740B2 (en) * | 2021-02-25 | 2023-06-06 | Robert Bosch Gmbh | Graph-based labeling rule augmentation for weakly supervised training of machine-learning-based named entity recognition |
-
2023
- 2023-11-20 CN CN202311547326.1A patent/CN117251650B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108595582A (zh) * | 2018-04-17 | 2018-09-28 | 北京理工大学 | 一种基于社会信号的灾害性气象热点事件识别方法 |
CN109697289A (zh) * | 2018-12-28 | 2019-04-30 | 北京工业大学 | 一种改进的用于命名实体识别的主动学习方法 |
CN110276075A (zh) * | 2019-06-21 | 2019-09-24 | 腾讯科技(深圳)有限公司 | 模型训练方法、命名实体识别方法、装置、设备及介质 |
CN110619090A (zh) * | 2019-08-05 | 2019-12-27 | 香港理工大学深圳研究院 | 一种区域吸引力评估方法及设备 |
CN110909230A (zh) * | 2019-11-27 | 2020-03-24 | 北京天元创新科技有限公司 | 一种网络热点分析方法及系统 |
CN110929517A (zh) * | 2019-11-28 | 2020-03-27 | 海南大学 | 地理位置定位方法、系统、计算机设备和存储介质 |
WO2021135105A1 (zh) * | 2020-01-02 | 2021-07-08 | 平安科技(深圳)有限公司 | 基于大数据的对象识别方法、装置、设备及存储介质 |
CN112765984A (zh) * | 2020-12-31 | 2021-05-07 | 平安资产管理有限责任公司 | 命名实体识别方法、装置、计算机设备和存储介质 |
WO2022142123A1 (zh) * | 2020-12-31 | 2022-07-07 | 平安科技(深圳)有限公司 | 命名实体模型的训练方法、装置、设备及介质 |
CN113420059A (zh) * | 2021-08-23 | 2021-09-21 | 中关村科学城城市大脑股份有限公司 | 一种市民热线问题主动治理方法和装置 |
CN113449111A (zh) * | 2021-08-31 | 2021-09-28 | 苏州工业园区测绘地理信息有限公司 | 基于时空语义知识迁移的社会治理热点话题自动识别方法 |
CN114492443A (zh) * | 2022-01-24 | 2022-05-13 | 支付宝(杭州)信息技术有限公司 | 训练实体识别模型的方法及系统和实体识别方法及系统 |
CN116976341A (zh) * | 2022-11-23 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 实体识别方法、装置、电子设备、存储介质及程序产品 |
CN116245097A (zh) * | 2022-12-21 | 2023-06-09 | 阿里巴巴(中国)有限公司 | 训练实体识别模型的方法、实体识别方法及对应装置 |
CN116562296A (zh) * | 2023-05-30 | 2023-08-08 | 信雅达科技股份有限公司 | 地理命名实体识别模型训练方法及地理命名实体识别方法 |
Non-Patent Citations (4)
Title |
---|
一种基于地理空间大数据的网络舆情监测软件架构;杨宗亮 等;测绘通报(第03期);96-100 * |
基于LDA模型和聚类算法的城市热点推荐与应用;王诗童 等;《智能计算机与应用》;第8卷(第3期);136-139 * |
数据挖掘支持下的网络热点事件地理可视化研究;葛小三 等;河南理工大学学报(自然科学版);第35卷(第05期);655-659 * |
网络热点信息发现研究;曾依灵 等;通信学报;第28卷(第12期);141-146 * |
Also Published As
Publication number | Publication date |
---|---|
CN117251650A (zh) | 2023-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lyu et al. | Long short-term memory RNN for biomedical named entity recognition | |
Jiang et al. | MAN: mutual attention neural networks model for aspect-level sentiment classification in SIoT | |
Han et al. | Semi-supervised active learning for sound classification in hybrid learning environments | |
CN111125365B (zh) | 地址数据标注方法及装置、电子设备、存储介质 | |
CN111274811A (zh) | 地址文本相似度确定方法以及地址搜索方法 | |
CN117251650B (zh) | 地理热点中心识别方法、装置、计算机设备和存储介质 | |
Liu et al. | Application of entity relation extraction method under CRF and syntax analysis tree in the construction of military equipment knowledge graph | |
CN112287656B (zh) | 文本比对方法、装置、设备和存储介质 | |
CN116797195A (zh) | 工单处理方法、装置、计算机设备和计算机可读存储介质 | |
CN117708351B (zh) | 基于深度学习的技术标辅助评审方法、系统及存储介质 | |
Wei et al. | GP-GCN: Global features of orthogonal projection and local dependency fused graph convolutional networks for aspect-level sentiment classification | |
CN112862021B (zh) | 一种内容标注方法和相关装置 | |
Yan et al. | A deep active learning-based and crowdsourcing-assisted solution for named entity recognition in Chinese historical corpora | |
CN110991193A (zh) | 一种基于OpenKiWi的翻译矩阵模型选择系统 | |
CN112529743B (zh) | 合同要素抽取方法、装置、电子设备及介质 | |
CN111476035B (zh) | 中文开放关系预测方法、装置、计算机设备和存储介质 | |
CN118013031A (zh) | 提示词的确定方法、装置、计算机设备以及存储介质 | |
Wu et al. | Attention-based convolutional neural networks for chinese relation extraction | |
US20230142351A1 (en) | Methods and systems for searching and retrieving information | |
CN117391497A (zh) | 一种新闻稿件质量主客观评分一致性评价方法及系统 | |
WO2023083176A1 (zh) | 样本处理方法、设备及计算机可读存储介质 | |
CN111460224A (zh) | 评论数据的质量标注方法、装置、设备及存储介质 | |
Yang et al. | BERT-BiLSTM-CRF for Chinese sensitive vocabulary recognition | |
Kirsch et al. | Noise reduction in distant supervision for relation extraction using probabilistic soft logic | |
Chen et al. | Location extraction from Twitter messages using a bidirectional long short-term memory neural network with conditional random field model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |