CN109145219A - 基于互联网文本挖掘的兴趣点有效性判断方法和装置 - Google Patents

基于互联网文本挖掘的兴趣点有效性判断方法和装置 Download PDF

Info

Publication number
CN109145219A
CN109145219A CN201811053052.XA CN201811053052A CN109145219A CN 109145219 A CN109145219 A CN 109145219A CN 201811053052 A CN201811053052 A CN 201811053052A CN 109145219 A CN109145219 A CN 109145219A
Authority
CN
China
Prior art keywords
interest
point
synonym
sample point
title
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811053052.XA
Other languages
English (en)
Other versions
CN109145219B (zh
Inventor
黄际洲
孙雅铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201811053052.XA priority Critical patent/CN109145219B/zh
Publication of CN109145219A publication Critical patent/CN109145219A/zh
Priority to EP19184306.9A priority patent/EP3623762B1/en
Priority to JP2019125750A priority patent/JP6846469B2/ja
Priority to US16/508,257 priority patent/US11347782B2/en
Priority to KR1020190083880A priority patent/KR102302367B1/ko
Application granted granted Critical
Publication of CN109145219B publication Critical patent/CN109145219B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/38Electronic maps specially adapted for navigation; Updating thereof
    • G01C21/3804Creation or updating of map data
    • G01C21/3807Creation or updating of map data characterised by the type of data
    • G01C21/3811Point data, e.g. Point of Interest [POI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了基于互联网文本挖掘的兴趣点有效性判断方法和装置。所述方法的一种实现方式包括:确定用于指示待检测兴趣点的搜索词集合;将所确定的搜索词作为搜索关键词进行搜索,得到用于描述待检测兴趣点的描述信息集合;将待检测兴趣点的名称和描述信息集合中的描述信息输入预先建立的有效性判别模型,得到用于指示待检测兴趣点的有效性的状态标签。该实现方式能够及时地发现失效的POI信息。从而为用户提供更加准确的信息,满足用户需求,提升用户体验。

Description

基于互联网文本挖掘的兴趣点有效性判断方法和装置
技术领域
本申请实施例涉及互联网领域,具体涉及互联网文本挖掘领域,尤其涉及基于互联网文本挖掘的兴趣点有效性判断方法和装置。
背景技术
POI(Point of Interest,兴趣点),为在地图上任何非地理意义的有意义的点,如商店、医院、加油站、车站、餐馆等。每个POI可以包含多种信息,例如名称、类别、坐标等。例如,POI的类别可以包括美食、酒店、购物、生活服务等。而在每个类别下,还可以包括多个子类别。例如,在“美食”这一类别下,还可以包括中餐厅、外国餐厅、小吃快餐店、蛋糕甜品店、咖啡厅、茶座、酒吧等子类别。
目前,在地图类产品(例如,地图类应用、导航类应用等)中,对失效POI的发现主要依赖于用户反馈。例如,用户利用导航类应用到达某一POI所在地时,发现该POI已搬迁,用户可以在该导航类应用中进行操作,从而将用于指示该POI已失效的信息向提供导航服务的服务端反馈。
发明内容
本申请实施例提出了基于互联网文本挖掘的兴趣点有效性判断方法和装置。
第一方面,本申请实施例提供了一种基于互联网文本挖掘的兴趣点有效性判断方法,包括:确定用于指示待检测兴趣点的搜索词集合;将所确定的搜索词作为搜索关键词进行搜索,得到用于描述待检测兴趣点的描述信息集合;将待检测兴趣点的名称和描述信息集合中的描述信息输入预先建立的有效性判别模型,得到用于指示待检测兴趣点的有效性的状态标签。
在一些实施例中,确定用于指示待检测兴趣点的搜索词集合包括:将待检测兴趣点的名称和待检测兴趣点的名称的同义词,作为搜索词集合中的搜索词。
在一些实施例中,预先建立的有效性判别模型为注意力模型;有效性判别模型基于如下的训练步骤训练得到:将样本兴趣点的名称、样本兴趣点的描述信息作为输入,将样本兴趣点的状态标签为目标,训练初始注意力模型,得到有效性判别模型。
在一些实施例中,注意力模型包括语义识别子模型和特征提取子模型,训练步骤进一步包括:对于其中一个样本兴趣点,将该样本兴趣点的名称和该样本兴趣点的其中一个描述信息输入语义识别子模型,并将该描述信息输入特征提取子模型,将语义识别子模型和特征提取子模型所输出的特征向量进行拼接,得到用于描述该样本兴趣点的该描述信息的特征向量;确定该样本兴趣点的各描述信息的特征向量的加权和;基于加权和确定属于该样本兴趣点的状态标签的概率值;基于预设的损失函数,确定各样本兴趣点在其真实标签下的概率值的损失值,将所确定的损失值在注意力模型中反向传播,调整注意力模型的模型参数,以得到有效性判别模型。
在一些实施例中,样本兴趣点的描述信息通过如下方式得到:确定由样本兴趣点的名称和样本兴趣点的名称的同义词构成的第一同义词集合;确定样本兴趣点的状态标签和样本兴趣点的状态标签的同义词构成的第二同义词集合;以从第一同义词集合中确定出的第一同义词和从第二同义词集合中确定出的第二同义词作为搜索词进行搜索,将搜索结果中,第一同义词和第二同义词共同出现的语句作为样本兴趣点的描述信息。
在一些实施例中,样本兴趣点的状态标签的同义词基于如下至少一者确定:从预先设置的同义词数据库中,确定出样本兴趣点的状态标签的同义词;以及从包含样本兴趣点的名称的历史搜索语句中,确定出预设数量的目标搜索语句,并将从所确定的目标搜索语句中确定出的、与样本兴趣点的状态标签的语义相似度超过预设相似度阈值的词作为样本兴趣点的状态标签的同义词。
在一些实施例中,兴趣点的名称的同义词基于如下至少一种方式确定:从预设的百科数据库中,确定出兴趣点的名称的同义词;将兴趣点的名称作为搜索词进行搜索,并将搜索得到的匹配实体作为兴趣点的名称的同义词,其中,匹配实体为预设数量的搜索结果所包含的实体中,与兴趣点的名称的最长公共子串在其名称中的占比超过预设比例阈值的实体;以及将兴趣点的名称作为搜索词进行搜索,从预设数量的搜索结果中抽取出包含兴趣点的名称的语句,利用共指消解工具,从所抽取的语句中确定出用于指代兴趣点的名称的词作为同义词;其中,兴趣点为待检测兴趣点和样本兴趣点中的一者。
第二方面,本申请实施例提供了一种基于互联网文本挖掘的兴趣点有效性判断装置,包括:搜索词确定单元,被配置成确定用于指示待检测兴趣点的搜索词集合;描述信息确定单元,被配置成将所确定的搜索词作为搜索关键词进行搜索,得到用于描述待检测兴趣点的描述信息集合;有效性判断单元,被配置成将待检测兴趣点的名称和描述信息集合中的描述信息输入预先建立的有效性判别模型,得到用于指示待检测兴趣点的有效性的状态标签。
在一些实施例中,搜索词确定单元进一步被配置成:将待检测兴趣点的名称和待检测兴趣点的名称的同义词,作为搜索词集合中的搜索词。
在一些实施例中,预先建立的有效性判别模型为注意力模型,装置还包括训练单元,训练单元进一步被配置成:将样本兴趣点的名称、样本兴趣点的描述信息作为输入,将样本兴趣点的状态标签为目标,训练初始注意力模型,得到有效性判别模型。
在一些实施例中,注意力模型包括语义识别子模型和特征提取子模型,训练单元进一步被配置成:对于其中一个样本兴趣点,将该样本兴趣点的名称和该样本兴趣点的其中一个描述信息输入语义识别子模型,并将该描述信息输入特征提取子模型,将语义识别子模型和特征提取子模型所输出的特征向量进行拼接,得到用于描述该样本兴趣点的该描述信息的特征向量;确定该样本兴趣点的各描述信息的特征向量的加权和;基于加权和确定属于该样本兴趣点的状态标签的概率值;基于预设的损失函数,确定各样本兴趣点在其真实标签下的概率值的损失值,将所确定的损失值在注意力模型中反向传播,调整注意力模型的模型参数,以得到有效性判别模型。
在一些实施例中,样本兴趣点的描述信息通过如下方式得到:确定由样本兴趣点的名称和样本兴趣点的名称的同义词构成的第一同义词集合;确定样本兴趣点的状态标签和样本兴趣点的状态标签的同义词构成的第二同义词集合;以从第一同义词集合中确定出的第一同义词和从第二同义词集合中确定出的第二同义词作为搜索词进行搜索,将搜索结果中,第一同义词和第二同义词共同出现的语句作为样本兴趣点的描述信息。
在一些实施例中,样本兴趣点的状态标签的同义词基于如下至少一者确定:从预先设置的同义词数据库中,确定出样本兴趣点的状态标签的同义词;以及从包含样本兴趣点的名称的历史搜索语句中,确定出预设数量的目标搜索语句,并将从所确定的目标搜索语句中确定出的、与样本兴趣点的状态标签的语义相似度超过预设相似度阈值的词作为样本兴趣点的状态标签的同义词。
在一些实施例中,装置还包括:同义词确定单元,被配置成基于如下至少一者确定兴趣点的名称的同义词:从预设的百科数据库中,确定出兴趣点的名称的同义词;将兴趣点的名称作为搜索词进行搜索,并将搜索得到的匹配实体作为兴趣点的名称的同义词,其中,匹配实体为预设数量的搜索结果所包含的实体中,与兴趣点的名称的最长公共子串在其名称中的占比超过预设比例阈值的实体;以及将兴趣点的名称作为搜索词进行搜索,从预设数量的搜索结果中抽取出包含兴趣点的名称的语句,利用共指消解工具,从所抽取的语句中确定出用于指代兴趣点的名称的词作为同义词;其中,兴趣点为待检测兴趣点和样本兴趣点中的一者。
第三方面,本申请实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面描述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其中,程序被处理器执行时实现如第一方面描述的方法。
本申请实施例提供的基于互联网文本挖掘的兴趣点有效性判断方法和装置,首先,确定用于指示待检测兴趣点的搜索词集合,接着,将所确定的搜索词作为搜索关键词进行搜索,得到用于描述搜索集合中的搜索词的描述信息集合,接着,将待检测兴趣点的名称和描述信息集合中的描述信息输入建立的有效性判别模型,得到用于指示待检测兴趣点的有效性的状态标签,通过对互联网文本的挖掘,并基于模型确定POI的有效性,可以及时地发现失效的POI信息(例如,地图类应用或者导航类应用中失效的POI信息)。从而为用户提供更加准确的信息,满足用户需求,提升用户体验。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请一个实施例的基于互联网文本挖掘的兴趣点有效性判断方法可以应用于其中的示例性系统架构图;
图2是根据本申请的基于互联网文本挖掘的兴趣点有效性判断方法的一个实施例的流程图;
图3是根据本申请的基于互联网文本挖掘的兴趣点有效性判断方法的一个应用场景的示意图;
图4是根据本申请的基于互联网文本挖掘的兴趣点有效性判断方法的又一个实施例的流程图;
图5是本申请的有效性判别模型的一种可选实现方式的示意性结构图;
图6是本申请的有效性判别模型的训练方法的一种可选实现方式的示意性流程图;
图7是本申请的有效性判别模型中,语义识别子模型的一种可选实现方式的示意性结构图;
图8是根据本申请的基于互联网文本挖掘的兴趣点有效性判断装置的一个实施例的结构图;
图9是适于用来实现本申请实施例的基于互联网文本挖掘的兴趣点有效性判断方法的电子设备的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的基于互联网文本挖掘的兴趣点有效性判断方法或基于互联网文本挖掘的兴趣点有效性判断装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有显示屏并的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如,能够为使用终端设备101、102、103的用户提供导航服务的导航服务器。导航服务器可以对接收到的用户导航目的地等数据进行解析,并将处理结果(例如,基于解析结果确定的该导航目的地所指示的POI是否有效的信息)反馈给终端设备。
需要说明的是,本申请实施例所提供的基于互联网文本挖掘的兴趣点有效性判断方法可以由服务器104执行,相应地,基于互联网文本挖掘的兴趣点有效性判断装置可以设置于服务器104中。
应该理解,图1中的终端设备101、102、103,网络104和服务器105的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,其示出了根据本申请的基于互联网文本挖掘的兴趣点有效性判断方法的一个实施例的流程200。该基于互联网文本挖掘的兴趣点有效性判断方法,包括以下步骤:
步骤201,确定用于指示待检测兴趣点的搜索词集合。
待检测POI可以是地图类应用或者导航类应用中的任意一个POI。
在一些可选的实现方式中,地图类应用或者导航类应用的服务提供方可以维护一POI数据库,该POI数据库中可以存储有其可提供地图和/或导航服务的POI的名称及相关信息。
在这些可选的实现方式的一些应用场景中,地图类应用或者导航类应用的服务提供方可以定期(例如,以某一预设的时间间隔)或不定期地更新POI数据库中的POI状态,以提升其所提供的POI的准确度。
在这些应用场景中,待检测兴趣点可以是POI数据库中,当前需进行状态更新和确认的POI其中的任意一个POI。
或者,在另一些应用场景中,使用地图类应用或者导航类应用的用户在该应用中输入了某一POI的名称作为其欲前往的目的地。那么,服务方可以将该POI作为待检测兴趣点。
在本实施例中,基于互联网文本挖掘的兴趣点有效性判断方法的执行主体(例如,图1所示的服务器105)可以通过各种可行的方式来确定用于指示待检测兴趣点的搜索词集合。
例如,作为一些可选的实现方式,可以直接将待检测POI的名称作为搜索词集合中的搜索词。
或者,在其他一些可选的实现方式中,可以将多种语言中,待检测POI的名称作为搜索词集合中的搜索词。例如,待检测POI为“北京首都国际机场”,那么,可以将该待检测POI的中文名称“北京首都国际机场”以及相应的英文名称“Beijing CapitalInternational Airport”作为搜索词集合中的搜索词。
或者,在另一些可选的实现方式中,还可以将待检测POI的简称作为搜索词集合中的搜索词。例如,待检测POI为“北京首都国际机场”,那么可以将“北京首都国际机场”的简称“首都国际机场”、“首都机场”等,作为搜索词集合中的搜索词。
步骤202,将所确定的搜索词作为搜索关键词进行搜索,得到用于描述待检测兴趣点的描述信息集合。
在这里,例如可以将搜索词集合中的搜索词作为一个查询(query),从而得到搜索结果。
可以理解,对于搜索词集合中的每一个搜索词,将其作为query进行搜索,可以得到一系列的搜索结果。这些搜索结果例如可以表现为呈现在搜索结果页面上的链接的形式。
在一些可选的实现方式中,可以将呈现在搜索结果页面上,前预设数量的搜索结果链接所链接得到的页面中,用于描述搜索词的语句作为用于描述待检测兴趣点的描述信息。
具体地,在这些可选的实现方式的一些应用场景中,若待检测POI的名称为“北京首都国际机场”,并且,“首都机场”是搜索词集合中的一个搜索词。则可以将“首都机场”作为query进行搜索,从而得到一系列的搜索结果。点击其中一搜索结果链接所得到的网页中,例如包含语句“近期首都机场将采取更为严格的安全检查措施,请广大旅客合理安排时间,提早抵达机场办理乘机、过检手续”。那么,该语句可以作为“北京首都国际机场”这一待检测POI的一个描述信息。
步骤203,将待检测兴趣点的名称和描述信息集合中的描述信息输入预先建立的有效性判别模型,得到用于指示待检测兴趣点的有效性的状态标签。
本步骤中的有效性判别模型,可以根据待检测兴趣点的名称和描述信息集合中的描述信息,确定出该待检测兴趣点的状态标签。在这里,“有效性”可以理解为待检测兴趣点当前是否处于有效的状态。
例如,待检测兴趣点为A商场。那么用于指示A商场的有效性的状态标签例如可以有“营业”、“停业”、“关闭”、“搬迁”等等。可以理解的是,在这些状态标签中,“营业”可以是用于指示A商场处于有效状态的状态标签,而“停业”、“关闭”、“搬迁”则可以是用于指示A商场处于无效状态的状态标签。
在一些可选的实现方式中,例如可以预先设置一用于表征POI的有效性的状态标签的状态标签集合。
在这些可选的实现方式中,可以将状态标签集合中的各状态标签与描述信息集合中的描述信息进行匹配,例如确定描述信息与状态标签之间的语义相似度,并将状态标签集合中,与描述信息集合中的描述信息具有最高语义相似度的状态标签作为用于指示该待检测兴趣点的有效性的状态标签。
本实施例提供的基于互联网文本挖掘的兴趣点有效性判断方法,首先,确定用于指示待检测兴趣点的搜索词集合,接着,将所确定的搜索词作为搜索关键词进行搜索,得到用于描述搜索集合中的搜索词的描述信息集合,接着,将待检测兴趣点的名称和描述信息集合中的描述信息输入预先建立的有效性判别模型,得到用于指示待检测兴趣点的有效性的状态标签,通过对互联网文本的挖掘,并基于模型确定POI的有效性,可以及时地发现地图中失效的POI信息。从而为用户提供更加准确的信息,满足用户需求,提升用户体验。
继续参见图3,图3是根据本实施例的基于互联网文本挖掘的兴趣点有效性判断方法的应用场景的一个示意图300。
在图3所示的应用场景中,地图类或导航类服务的服务提供方从存储POI的数据库301中获取待检测POI“XXX服装批发市场”。
接着,如附图标记302所示,可以确定该待检测POI的搜索词集合。搜索词集合中包括搜索词“XXX服装批发市场”、“XXX服装市场”和“XXX批发市场”。
接着,如附图标记303所示,分别将搜索词“XXX服装批发市场”、“XXX服装市场”和“XXX批发市场”作为搜索关键词进行搜索,得到一系列的搜索结果。从搜索结果中,可以将用于描述搜索词的语句提取出来,作为“XXX服装批发市场”这一待检测POI的描述信息,并形成描述信息集合。
接着,如附图标记303所示,将待检测POI“XXX服装批发市场”和描述信息集合输入到预先建立的有效性判别模型中,从而得到用于指示“XXX服装批发市场”是否有效的状态标签,例如,搬迁。这样一来,通过本实施例的方法,可以确定出待检测POI是否处于有效状态,使得使用该地图或导航应用的用户在进行POI查询和/或导航时,可以及时地获得该POI的准确状态,获得更加准确的地图和/或导航信息。
在本实施例的基于互联网文本挖掘的兴趣点有效性判断方法的一些可选的实现方式中,步骤201的确定用于指示待检测兴趣点的搜索词集合可以包括:将待检测兴趣点的名称和待检测兴趣点的名称的同义词,作为搜索词集合中的搜索词。
一般而言,某一个POI的官方准确的名称并非公众最为公知、最常用的名称。在这种情况下,为了尽可能地全面、准确地搜集待检测POI的描述信息,避免因搜集到的描述信息多样性不足而导致的状态标签的误判断,在确定待检测POI的搜索词集合时,不仅可以将待检测POI的名称作为搜索词集合中的搜索词,还可以将该待检测POI的同义词作为搜索词集合中的搜索词。
在这些可选的实现方式的一些应用场景中,可以从预设的百科数据库中,确定出待检测POI的名称的同义词。一般来讲,百科数据库具有收纳数据全面、准确的特点。并且,百科数据库的各条词条数据中,通常包含了该词条的同义词。
在这些可选的实现方式的另一些应用场景中,还可以将待检测POI的名称作为搜索词进行搜索,并将搜索得到的匹配实体作为兴趣点的名称的同义词。在这里,匹配实体可以是预设数量的搜索结果所包含的实体中,与待检测兴趣点的名称的最长公共子串在其名称中的占比超过预设比例阈值的实体。
在这些应用场景中,例如,待检测POI为“AAA服装市场”。可以将“AAA服装市场”作为搜索词进行搜索。在搜索结果页面呈现的搜索结果中,选取前N条(例如,前10条)搜索结果。在这N条搜索结果中,利用命名实体识别(Named Entity Recognition,NER)算法确定出候选实体。将候选实体中,与待检测POI的最长公共子串在其名称中的占比超过预设比例阈值(例如,50%)的候选实体作为匹配实体。
最长公共子串,也可称为最大公共子串,可以指两个或多个字符串中,所包含的共同的子串中,最长的一个子串。例如,某一个候选实体为“AAA服装批发市场”,那么该候选实体与待检测POI的名称之间的最大公共子串为“AAA服装”。这里,最大公共子串“AAA服装”在“AAA服装批发市场”这一实体名中的占比(5/9)超过了50%,因此,“AAA服装批发市场”可以作为待检测POI“AAA服装市场”的同义词。
在这些可选的实现方式的另一些应用场景中,还可以将待检测POI的名称作为搜索词进行搜索,从预设数量的搜索结果中抽取出包含该待检测POI的名称的语句,利用共指消解工具,从所抽取的语句中确定出用于指代兴趣点的名称的词作为同义词。
在实际生活中,人们为了避免重复,习惯用代词、称谓和缩略语来指代前面提到的实体全称。共指消解(coreference resolution),则是旨在将用于表征同一个实体的所有指代词从文本中确定出来的技术。
利用共指消解工具,可以将以待检测POI为搜索词进行搜索得到的预设数量的搜索结果(例如,前N条搜索结果)中,用于指代该待检测POI的指代词确定出来,并将所确定出的词作为待检测POI的名称的同义词。
共指消解算法是目前已广泛研究的技术,本领域技术人员可以利用已有的或者待未来开发的共指消解算法,来确定出以待检测POI为搜索词进行搜索得到的预设数量的搜索结果中,用于指代该待检测POI的指代词。
可以理解的是,为了使得所确定出的检索词集合中所包含的待检测POI的同义词更加全面,还可以采用以上给出的确定待检测POI的同义词的方式中,任意至少二者的组合,来确定出待检测POI的同义词。
进一步参考图4,其示出了基于互联网文本挖掘的兴趣点有效性判断方法的又一个实施例的流程400。该基于互联网文本挖掘的兴趣点有效性判断方法的流程400,包括以下步骤:
步骤401,确定用于指示待检测兴趣点的搜索词集合。
步骤402,将所确定的搜索词作为搜索关键词进行搜索,得到用于描述待检测兴趣点的描述信息集合。
步骤403,将待检测兴趣点的名称和描述信息集合中的描述信息输入预先建立的有效性判别模型,得到用于指示待检测兴趣点的有效性的状态标签。
上述步骤401~步骤403可以按照与图2所示的实施例的步骤201~步骤203类似的方式执行,在此不再赘述。
与图2所示的实施例不同的是,本实施例中,预先建立的有效性判别模型为注意力模型。
注意力模型(Attention Model),其模拟了人体大脑的注意力模型,举个例子来说,当我们观赏一幅画时,虽然我们可以看到整幅画的全貌,但是在我们深入仔细地观察时,其实眼睛聚焦的就只有很小的一块,这个时候人的大脑主要关注在这一小块图案上,也就是说这个时候人脑对整幅图的关注并不是均衡的,是有一定的权重区分的。这就是深度学习里的Attention Model的核心思想。
在应用于本实施例的基于互联网文本挖掘的兴趣点有效性判断方法时,注意力模型可以对输入其中的各描述信息分别确定权重,并根据待检测POI的各描述信息的加权和,确定出概率最大的状态标签,作为用于指示该待检测POI的有效性的状态标签。
结合图4,在本实施例中,注意力模型可以通过如下的步骤训练得到:
步骤404,将样本兴趣点的名称、样本兴趣点的描述信息作为输入,将样本兴趣点的状态标签为目标,训练初始注意力模型,得到有效性判别模型。
可以为初始的注意力模型设置初始参数,并得到样本兴趣点的真实状态标签的概率。通过不断地调节模型中的参数,使得模型所输出的样本兴趣点的真实状态标签的概率尽可能地接近100%。
在一些应用场景中,样本兴趣点的描述信息通过如下方式得到:
首先,确定由样本兴趣点的名称和样本兴趣点的名称的同义词构成的第一同义词集合。例如,样本兴趣点的名称为A,样本兴趣点的同义词有A1,…,AM,则第一同义词集合为Set_name={A,A1,…,AM}。
可以理解的是,本实施例中,样本兴趣点的名称的同义词可以采用如图2所示实施例中,待检测兴趣点的确定方式类似的方式进行。例如,可以从预设的百科数据库中,确定出样本兴趣点的名称的同义词;和/或,还可以将样本兴趣点的名称作为搜索词进行搜索,并将搜索得到的匹配实体作为样本兴趣点的名称的同义词,其中,匹配实体为预设数量的搜索结果所包含的实体中,与样本兴趣点的名称的最长公共子串在其名称中的占比超过预设比例阈值的实体;和/或,还可以将样本兴趣点的名称作为搜索词进行搜索,从预设数量的搜索结果中抽取出包含样本兴趣点的名称的语句,利用共指消解工具,从所抽取的语句中确定出用于指代样本兴趣点的名称的词作为同义词。
接着,确定样本兴趣点的状态标签和样本兴趣点的状态标签的同义词构成的第二同义词集合。例如,兴趣点的状态标签为B,状态标签的同义词有B1,…,BN,则第二同义词集合为Set_lable={B,B1,…,BN}。
可选地,状态标签的同义词可以基于如下的至少一者来确定:
从预先设置的同义词数据库中,确定出样本兴趣点的状态标签的同义词。和/或,从包含样本兴趣点的名称的历史搜索语句中,确定出预设数量的目标搜索语句,并将从所确定的目标搜索语句中确定出的、与样本兴趣点的状态标签的语义相似度超过预设相似度阈值的词作为样本兴趣点的状态标签的同义词。
最后,以从第一同义词集合中确定出的第一同义词和从第二同义词集合中确定出的第二同义词作为搜索词进行搜索。并将搜索结果中,第一同义词和第二同义词共同出现的语句作为样本兴趣点的描述信息。
例如,第一同义词集合为Set_name={A,A1,…,AM},第二同义词集合为Set_lable={B,B1,…,BN}。那么,可以得到搜索词集合L={AB,AB1,…,ABN,A1B,A1B1…,A1BN,…AMBN}。将搜索词集合中的每个元素作为搜索词进行搜索,在搜索结果中,将第一同义词和第二同义词共同出现的语句作为样本兴趣点的描述信息。
可以理解的是,在进行样本兴趣点及其描述信息和状态标签的搜集过程中,为了使得最终训练得到的模型的预测正确率更高,训练样本中可以既包含正样本也包含负样本。也即是说,训练样本中,可以有状态标签指示该样本兴趣点处于有效状态的样本,也有状态标签指示该样本兴趣点处于无效状态的样本。
下面,将进一步结合图5和图6来描述在本实施例的一些可选的实现方式中,注意力模型的结构及其训练方式。
具体而言,图5示出了在本实施例的一些可选的实现方式中,注意力模型的具体结构,图6示出了在这些可选的实现方式中,注意力模型的训练步骤的具体执行过程。
参见图5所示,注意力模型500可以包括语义识别子模型501、特征提取子模型502、加权求和单元503、线性化单元504以及分类器505等结构。
语义识别子模型501可用于提取输入其中的样本POI的名称和某一个描述信息si(i=1,2,…,n)的语义特征,并得到语义特征向量。
而特征提取子模型502则可用于从样本POI的名称及其中一个描述信息中si(i=1,2,…,n)中,基于某一个或某几个预先设置的规则,进行特征提取,从而得到表征该样本POI的该描述信息的描述特征向量。
在一些应用场景中,基于预先设置的规则,特征提取子模型502可以提取出以下至少一种特征:用于表征描述信息中所包含的样本兴趣点的状态标签或样本兴趣点的状态标签的同义词的个数的特征;以及,用于表征描述信息中是否包含标签词的特征。可以理解的是,在这里,标签词不仅可以包括状态标签本身,还可以进一步包括状态标签的同义词。
可以理解的是,在注意力模型500中,语义识别子模型501和特征提取子模型502的具体数量并不限定。
具体地,注意力模型可以包括一个语义识别子模型和一个特征提取子模型,这样一来,语义识别子模型和特征提取子模型可以分别串行地提取样本POI名称和描述信息的语义特征和描述特征,并分别得到针对该样本POI的各描述信息的语义特征向量和描述特征向量。
或者,如图5所示,注意力模型500也可以包括复数个语义识别子模型501和复数个特征提取子模型502。这样一来,各个语义识别子模型和各个特征提取子模型可以并行地进行语义特征提取和描述特征提取。
此外,注意力模型还包括加权求和单元503。加权求和单元503可以将样本POI的每个描述信息经语义识别子模型识别得到的语义特征向量和特征提取子模型提取得到的描述特征向量进行拼接后得到拼接特征向量进行加权求和,并将加权和利用线性化单元504进行线性化,最后将线性化结果利用分类器505进行分类,得到样本POI具有其真实样本标签(ground truth)的概率。
这样一来,通过不断地调整注意力模型中的模型参数,可以相应地调整加权求和单元503中的加权系数,从而使得注意力模型所输出的样本POI属于其真实样本标签的概率不断地增大。
参见图6,其进一步具体地示出了训练注意力模型的过程。
在步骤601中,对于其中一个样本兴趣点,将该样本兴趣点的名称和该样本兴趣点的其中一个描述信息输入语义识别子模型,并将该描述信息输入特征提取子模型,将语义识别子模型和特征提取子模型所输出的特征向量进行拼接,得到用于描述该样本兴趣点的该描述信息的特征向量。
在一些可选的实现方式中,语义识别子模型也可以是注意力模型。参见图7所示,为基于注意力模型的语义识别子模型的一个实施例的示意性结构图。
语义识别子模型包括名称特征提取子模型701、至少一个词特征提取子模型702以及加权求和单元703。名称特征提取子模型701和词特征提取子模型702均基于双向LSTM(长短时记忆网络,Long Short-Term Memory)进行建模得到。对于包含有m个词的句子,将每个词x1~xm输入词特征提取子模型702,得到一系列隐含向量h1,h2,...,hm。此外,利用名称特征提取子模型对POI名称进行特征提取,得到名字向量vPOI。通过注意力机制,利用名字向量vPOI分别与每个隐含向量计算出一个权重βi(i=1,2,…,m)。根据计算出的权重β12,...βm,利用加权求和单元703,计算出描述信息的语义向量表示vs
具体地:
接着,将语义识别子模型得到的语义特征向量vs与特征提取子模型提取的描述特征向量进行拼接,得到每个描述信息的向量表示vsen
在步骤602中,确定该样本兴趣点的各描述信息的特征向量的加权和。
具体地,利用注意力机制,计算该样本兴趣点各拼接特征向量的加权和vc
其中,va为模型参数,并可以在训练过程中不断地调整。
在步骤603中,基于加权和确定属于该样本兴趣点的状态标签的概率值。
具体地,对基于步骤602得到的加权和vc进行线性变换,并输入至分类器中进行标签概率分布的预测。其中,概率最大的标签被预测为该样本POI的状态标签。
在步骤604中,基于预设的损失函数,确定各样本兴趣点在其真实标签下的概率值的损失值,将所确定的损失值在注意力模型中反向传播,调整注意力模型的模型参数,以得到有效性判别模型。
例如,损失函数可以为正确标签的负的对数似然函数(negative loglikelihood):
L=-∑ilogpij (3)
其中,公式(3)中,j为训练样本集中第i个样本POI的正确标签。这样一来,可以利用上述公式(3)计算出训练样本的损失值,并通过损失值在模型中的反向传播(例如,基于随机梯度下降算法),来调整模型参数,进而训练注意力模型。
从图4~图7中可以看出,与图2对应的实施例相比,本实施例的基于互联网文本挖掘的兴趣点有效性判断方法的流程400,利用了基于注意力模型的有效性判别模型进行待检测兴趣点的状态标签的识别,使得有效性判别模型能够识别出描述信息中,对判断POI状态更重要的信息,进而使得最终预测得到的状态标签更加准确。
进一步参考图8,作为对上述各图所示方法的实现,本申请提供了一种基于互联网文本挖掘的兴趣点有效性判断装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图8所示,本实施例的基于互联网文本挖掘的兴趣点有效性判断装置包括包括搜索词确定单元801、描述信息确定单元802以及有效性判断单元803。
搜索词确定单元801可被配置成确定用于指示待检测兴趣点的搜索词集合。
描述信息确定单元802可被配置成将所确定的搜索词作为搜索关键词进行搜索,得到用于描述待检测兴趣点的描述信息集合。
有效性判断单元803可被配置成将待检测兴趣点的名称和描述信息集合中的描述信息输入预先建立的有效性判别模型,得到用于指示待检测兴趣点的有效性的状态标签。
在一些可选的实现方式中,搜索词确定单元801还可进一步被配置成:将待检测兴趣点的名称和待检测兴趣点的名称的同义词,作为搜索词集合中的搜索词。
在一些可选的实现方式中,预先建立的有效性判别模型可以为注意力模型。
在这些可选的实现方式中,装置还可以包括训练单元(图中未示出)。训练单元可以进一步被配置成:将样本兴趣点的名称、样本兴趣点的描述信息作为输入,将样本兴趣点的状态标签为目标,训练初始注意力模型,得到有效性判别模型。
在一些可选的实现方式中,注意力模型可以包括语义识别子模型和特征提取子模型。
在这些可选的实现方式中,训练单元可以进一步被配置成:对于其中一个样本兴趣点,将该样本兴趣点的名称和该样本兴趣点的其中一个描述信息输入语义识别子模型,并将该描述信息输入特征提取子模型,将语义识别子模型和特征提取子模型所输出的特征向量进行拼接,得到用于描述该样本兴趣点的该描述信息的特征向量;确定该样本兴趣点的各描述信息的特征向量的加权和;基于加权和确定属于该样本兴趣点的状态标签的概率值;基于预设的损失函数,确定各样本兴趣点在其真实标签下的概率值的损失值,将所确定的损失值在注意力模型中反向传播,调整注意力模型的模型参数,以得到有效性判别模型。
在一些可选的实现方式中,样本兴趣点的描述信息通可以过如下方式得到:确定由样本兴趣点的名称和样本兴趣点的名称的同义词构成的第一同义词集合;确定样本兴趣点的状态标签和样本兴趣点的状态标签的同义词构成的第二同义词集合;以从第一同义词集合中确定出的第一同义词和从第二同义词集合中确定出的第二同义词作为搜索词进行搜索,将搜索结果中,第一同义词和第二同义词共同出现的语句作为样本兴趣点的描述信息。
在一些可选的实现方式中,样本兴趣点的状态标签的同义词可以基于如下至少一者确定:从预先设置的同义词数据库中,确定出样本兴趣点的状态标签的同义词;以及从包含样本兴趣点的名称的历史搜索语句中,确定出预设数量的目标搜索语句,并将从所确定的目标搜索语句中确定出的、与样本兴趣点的状态标签的语义相似度超过预设相似度阈值的词作为样本兴趣点的状态标签的同义词。
在一些可选的实现方式中,装置还可以包括同义词确定单元。
同义词确定单元可以被配置成基于如下至少一者确定兴趣点的名称的同义词:从预设的百科数据库中,确定出兴趣点的名称的同义词;将兴趣点的名称作为搜索词进行搜索,并将搜索得到的匹配实体作为兴趣点的名称的同义词,其中,匹配实体为预设数量的搜索结果所包含的实体中,与兴趣点的名称的最长公共子串在其名称中的占比超过预设比例阈值的实体;以及将兴趣点的名称作为搜索词进行搜索,从预设数量的搜索结果中抽取出包含兴趣点的名称的语句,利用共指消解工具,从所抽取的语句中确定出用于指代兴趣点的名称的词作为同义词。在这里,兴趣点可以是待检测兴趣点和样本兴趣点中的一者。
下面参考图9,其示出了适于用来实现本申请实施例的基于互联网文本挖掘的兴趣点有效性判断方法的电子设备的计算机系统900的结构示意图。图9示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图9所示,计算机系统900包括中央处理单元(CPU)901,其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分906加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。在RAM 903中,还存储有系统900操作所需的各种程序和数据。CPU 901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
以下部件连接至I/O接口905:包括硬盘等的存储部分906;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分907。通信部分907经由诸如因特网的网络执行通信处理。驱动器908也根据需要连接至I/O接口905。可拆卸介质909,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器908上,以便于从其上读出的计算机程序根据需要被安装入存储部分906。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分907从网络上被下载和安装,和/或从可拆卸介质909被安装。在该计算机程序被中央处理单元(CPU)901执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括搜索词确定单元、描述信息确定单元以及有效性判断单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,搜索词确定单元还可以被描述为“确定用于指示待检测兴趣点的搜索词集合的单元”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:确定用于指示待检测兴趣点的搜索词集合;将所确定的搜索词作为搜索关键词进行搜索,得到用于描述待检测兴趣点的描述信息集合;将待检测兴趣点的名称和描述信息集合中的描述信息输入预先建立的有效性判别模型,得到用于指示待检测兴趣点的有效性的状态标签。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (16)

1.一种基于互联网文本挖掘的兴趣点有效性判断方法,包括:
确定用于指示待检测兴趣点的搜索词集合;
将所确定的搜索词作为搜索关键词进行搜索,得到用于描述所述待检测兴趣点的描述信息集合;
将所述待检测兴趣点的名称和所述描述信息集合中的描述信息输入预先建立的有效性判别模型,得到用于指示所述待检测兴趣点的有效性的状态标签。
2.根据权利要求1所述的方法,其中,所述确定用于指示待检测兴趣点的搜索词集合包括:
将所述待检测兴趣点的名称和所述待检测兴趣点的名称的同义词,作为所述搜索词集合中的搜索词。
3.根据权利要求1所述的方法,其中,所述预先建立的有效性判别模型为注意力模型;
所述有效性判别模型基于如下的训练步骤训练得到:
将样本兴趣点的名称、所述样本兴趣点的描述信息作为输入,将所述样本兴趣点的状态标签为目标,训练初始注意力模型,得到所述有效性判别模型。
4.根据权利要求3所述的方法,其中,所述注意力模型包括语义识别子模型和特征提取子模型,所述训练步骤进一步包括:
对于其中一个样本兴趣点,将该样本兴趣点的名称和该样本兴趣点的其中一个描述信息输入语义识别子模型,并将该描述信息输入特征提取子模型,将语义识别子模型和特征提取子模型所输出的特征向量进行拼接,得到用于描述该样本兴趣点的该描述信息的特征向量;
确定该样本兴趣点的各描述信息的特征向量的加权和;
基于所述加权和确定属于该样本兴趣点的状态标签的概率值;
基于预设的损失函数,确定各样本兴趣点在其真实标签下的概率值的损失值,将所确定的损失值在注意力模型中反向传播,调整注意力模型的模型参数,以得到所述有效性判别模型。
5.根据权利要求3所述的方法,其中,所述样本兴趣点的描述信息通过如下方式得到:
确定由样本兴趣点的名称和样本兴趣点的名称的同义词构成的第一同义词集合;
确定样本兴趣点的状态标签和样本兴趣点的状态标签的同义词构成的第二同义词集合;
以从所述第一同义词集合中确定出的第一同义词和从所述第二同义词集合中确定出的第二同义词作为搜索词进行搜索,将搜索结果中,第一同义词和第二同义词共同出现的语句作为样本兴趣点的描述信息。
6.根据权利要求5所述的方法,其中,所述样本兴趣点的状态标签的同义词基于如下至少一者确定:
从预先设置的同义词数据库中,确定出所述样本兴趣点的状态标签的同义词;以及
从包含所述样本兴趣点的名称的历史搜索语句中,确定出预设数量的目标搜索语句,并将从所确定的目标搜索语句中确定出的、与所述样本兴趣点的状态标签的语义相似度超过预设相似度阈值的词作为所述样本兴趣点的状态标签的同义词。
7.根据权利要求2或权利要求5所述的方法,其中,兴趣点的名称的同义词基于如下至少一种方式确定:
从预设的百科数据库中,确定出兴趣点的名称的同义词;
将兴趣点的名称作为搜索词进行搜索,并将搜索得到的匹配实体作为兴趣点的名称的同义词,其中,所述匹配实体为预设数量的搜索结果所包含的实体中,与兴趣点的名称的最长公共子串在其名称中的占比超过预设比例阈值的实体;以及
将兴趣点的名称作为搜索词进行搜索,从预设数量的搜索结果中抽取出包含兴趣点的名称的语句,利用共指消解工具,从所抽取的语句中确定出用于指代兴趣点的名称的词作为同义词;
其中,所述兴趣点为所述待检测兴趣点和所述样本兴趣点中的一者。
8.一种基于互联网文本挖掘的兴趣点有效性判断装置,包括:
搜索词确定单元,被配置成确定用于指示待检测兴趣点的搜索词集合;
描述信息确定单元,被配置成将所确定的搜索词作为搜索关键词进行搜索,得到用于描述所述待检测兴趣点的描述信息集合;
有效性判断单元,被配置成将所述待检测兴趣点的名称和所述描述信息集合中的描述信息输入预先建立的有效性判别模型,得到用于指示所述待检测兴趣点的有效性的状态标签。
9.根据权利要求8所述的装置,其中,所述搜索词确定单元进一步被配置成:
将所述待检测兴趣点的名称和所述待检测兴趣点的名称的同义词,作为所述搜索词集合中的搜索词。
10.根据权利要求8所述的装置,其中所述预先建立的有效性判别模型为注意力模型,所述装置还包括训练单元,所述训练单元进一步被配置成:
将样本兴趣点的名称、所述样本兴趣点的描述信息作为输入,将所述样本兴趣点的状态标签为目标,训练初始注意力模型,得到所述有效性判别模型。
11.根据权利要求10所述的装置,其中,所述注意力模型包括语义识别子模型和特征提取子模型,所述训练单元进一步被配置成:
对于其中一个样本兴趣点,将该样本兴趣点的名称和该样本兴趣点的其中一个描述信息输入语义识别子模型,并将该描述信息输入特征提取子模型,将语义识别子模型和特征提取子模型所输出的特征向量进行拼接,得到用于描述该样本兴趣点的该描述信息的特征向量;
确定该样本兴趣点的各描述信息的特征向量的加权和;
基于所述加权和确定属于该样本兴趣点的状态标签的概率值;
基于预设的损失函数,确定各样本兴趣点在其真实标签下的概率值的损失值,将所确定的损失值在注意力模型中反向传播,调整注意力模型的模型参数,以得到所述有效性判别模型。
12.根据权利要求10所述的装置,其中,所述样本兴趣点的描述信息通过如下方式得到:
确定由样本兴趣点的名称和样本兴趣点的名称的同义词构成的第一同义词集合;
确定样本兴趣点的状态标签和样本兴趣点的状态标签的同义词构成的第二同义词集合;
以从所述第一同义词集合中确定出的第一同义词和从所述第二同义词集合中确定出的第二同义词作为搜索词进行搜索,将搜索结果中,第一同义词和第二同义词共同出现的语句作为样本兴趣点的描述信息。
13.根据权利要求12所述的装置,其中,所述样本兴趣点的状态标签的同义词基于如下至少一者确定:
从预先设置的同义词数据库中,确定出所述样本兴趣点的状态标签的同义词;以及
从包含所述样本兴趣点的名称的历史搜索语句中,确定出预设数量的目标搜索语句,并将从所确定的目标搜索语句中确定出的、与所述样本兴趣点的状态标签的语义相似度超过预设相似度阈值的词作为所述样本兴趣点的状态标签的同义词。
14.根据权利要求9或权利要求12所述的装置,其中,所述装置还包括:
同义词确定单元,被配置成基于如下至少一者确定兴趣点的名称的同义词:
从预设的百科数据库中,确定出兴趣点的名称的同义词;
将兴趣点的名称作为搜索词进行搜索,并将搜索得到的匹配实体作为兴趣点的名称的同义词,其中,所述匹配实体为预设数量的搜索结果所包含的实体中,与兴趣点的名称的最长公共子串在其名称中的占比超过预设比例阈值的实体;以及
将兴趣点的名称作为搜索词进行搜索,从预设数量的搜索结果中抽取出包含兴趣点的名称的语句,利用共指消解工具,从所抽取的语句中确定出用于指代兴趣点的名称的词作为同义词;
其中,所述兴趣点为所述待检测兴趣点和所述样本兴趣点中的一者。
15.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
16.一种计算机可读存储介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN201811053052.XA 2018-09-10 2018-09-10 基于互联网文本挖掘的兴趣点有效性判断方法和装置 Active CN109145219B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201811053052.XA CN109145219B (zh) 2018-09-10 2018-09-10 基于互联网文本挖掘的兴趣点有效性判断方法和装置
EP19184306.9A EP3623762B1 (en) 2018-09-10 2019-07-04 Internet text mining-based method and apparatus for judging validity of point of interest
JP2019125750A JP6846469B2 (ja) 2018-09-10 2019-07-05 インターネットテキストマイニングに基づく関心地点の有効性の判断方法および装置
US16/508,257 US11347782B2 (en) 2018-09-10 2019-07-10 Internet text mining-based method and apparatus for judging validity of point of interest
KR1020190083880A KR102302367B1 (ko) 2018-09-10 2019-07-11 인터넷 텍스트 마이닝에 기반한 관심 지점의 유효성 판단 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811053052.XA CN109145219B (zh) 2018-09-10 2018-09-10 基于互联网文本挖掘的兴趣点有效性判断方法和装置

Publications (2)

Publication Number Publication Date
CN109145219A true CN109145219A (zh) 2019-01-04
CN109145219B CN109145219B (zh) 2020-12-25

Family

ID=64824340

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811053052.XA Active CN109145219B (zh) 2018-09-10 2018-09-10 基于互联网文本挖掘的兴趣点有效性判断方法和装置

Country Status (5)

Country Link
US (1) US11347782B2 (zh)
EP (1) EP3623762B1 (zh)
JP (1) JP6846469B2 (zh)
KR (1) KR102302367B1 (zh)
CN (1) CN109145219B (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232160A (zh) * 2019-06-20 2019-09-13 北京百度网讯科技有限公司 兴趣点变迁事件检测方法、装置及存储介质
CN110781413A (zh) * 2019-08-28 2020-02-11 腾讯大地通途(北京)科技有限公司 兴趣点确定方法及装置、存储介质、电子设备
CN110795515A (zh) * 2019-08-26 2020-02-14 腾讯科技(深圳)有限公司 兴趣点poi的处理方法、装置、电子设备及计算机存储介质
CN110851738A (zh) * 2019-10-28 2020-02-28 百度在线网络技术(北京)有限公司 获取poi状态信息的方法、装置、设备和计算机存储介质
CN111026937A (zh) * 2019-11-13 2020-04-17 百度在线网络技术(北京)有限公司 提取poi名称的方法、装置、设备和计算机存储介质
CN111259018A (zh) * 2020-01-08 2020-06-09 北京百度网讯科技有限公司 生效验证方法、装置、电子设备及存储介质
CN111309834A (zh) * 2020-01-20 2020-06-19 腾讯云计算(北京)有限责任公司 一种无线热点与兴趣点的匹配方法及装置
CN111460056A (zh) * 2019-01-22 2020-07-28 阿里巴巴集团控股有限公司 一种过期poi的挖掘方法及装置
CN111522888A (zh) * 2020-04-22 2020-08-11 北京百度网讯科技有限公司 挖掘兴趣点之间的竞争关系的方法和装置
CN111753195A (zh) * 2020-06-17 2020-10-09 百度在线网络技术(北京)有限公司 标签体系构建方法、装置、设备以及存储介质
CN111782741A (zh) * 2020-06-04 2020-10-16 汉海信息技术(上海)有限公司 兴趣点挖掘方法、装置、电子设备及存储介质
CN111797183A (zh) * 2020-05-29 2020-10-20 汉海信息技术(上海)有限公司 挖掘信息点的道路属性的方法、装置及电子设备
CN111832483A (zh) * 2020-07-14 2020-10-27 北京百度网讯科技有限公司 一种兴趣点有效性识别方法、装置、设备以及存储介质
CN111858787A (zh) * 2019-09-24 2020-10-30 北京嘀嘀无限科技发展有限公司 一种poi信息获取的方法及装置
CN111860503A (zh) * 2020-07-16 2020-10-30 北京奇虎科技有限公司 信息点有效性识别方法、装置、设备及存储介质
CN112015888A (zh) * 2019-05-31 2020-12-01 百度在线网络技术(北京)有限公司 摘要信息提取方法和摘要信息提取系统
CN112417322A (zh) * 2020-12-10 2021-02-26 长春理工大学 一种面向兴趣点名称文本的类型判别方法及系统
CN112781604A (zh) * 2019-11-08 2021-05-11 逸驾智能科技有限公司 用于导航的方法、装置、设备和计算机可读存储介质
CN112818972A (zh) * 2020-12-25 2021-05-18 北京百度网讯科技有限公司 兴趣点图像的检测方法、装置、电子设备及存储介质
CN113515944A (zh) * 2021-03-23 2021-10-19 汉海信息技术(上海)有限公司 兴趣点的别名挖掘方法、装置、设备及存储介质
CN114860836A (zh) * 2022-05-24 2022-08-05 北京百度网讯科技有限公司 失效兴趣点的挖掘方法及装置、设备和介质
WO2022174552A1 (zh) * 2021-02-22 2022-08-25 北京百度网讯科技有限公司 获取poi状态信息的方法及装置
US11954296B2 (en) 2020-01-20 2024-04-09 Tencent Technology (Shenzhen) Company Limited Flexible capacitive tactile sensor and method for manufacturing same and tactile sensing system

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6832322B2 (ja) * 2018-11-02 2021-02-24 株式会社トヨタマップマスター 探索装置、探索方法、探索プログラムおよび記録媒体
CN113449754B (zh) * 2020-03-26 2023-09-22 百度在线网络技术(北京)有限公司 标签的匹配模型训练和展示方法、装置、设备及介质
CN111583907B (zh) * 2020-04-15 2023-08-15 北京小米松果电子有限公司 信息处理方法、装置及存储介质
CN111506835B (zh) * 2020-04-17 2022-12-23 北京理工大学 一种融合用户时间特征和个性特征的数据特征提取方法
CN111767477B (zh) * 2020-06-19 2023-07-28 北京百度网讯科技有限公司 一种检索方法、装置、电子设备和存储介质
CN112100440B (zh) * 2020-08-21 2023-12-12 深圳市雅阅科技有限公司 视频推送方法、设备及介质
CN114579735A (zh) * 2020-12-01 2022-06-03 汉海信息技术(上海)有限公司 信息点状态确定方法、装置、电子设备及可读存储介质
CN112597755B (zh) * 2020-12-29 2024-06-11 杭州拼便宜网络科技有限公司 一种地理位置信息生成方法、装置、电子设备及存储介质
CN112966192B (zh) * 2021-02-09 2023-10-27 北京百度网讯科技有限公司 区域地址命名方法、装置、电子设备及可读存储介质
CN113011920B (zh) * 2021-03-15 2024-02-13 北京百度网讯科技有限公司 转化率预估模型的训练方法、装置及电子设备
CN113204697A (zh) * 2021-04-29 2021-08-03 五八有限公司 一种搜索方法、装置、电子设备及存储介质
CN113407610B (zh) * 2021-06-30 2023-10-24 北京百度网讯科技有限公司 信息抽取方法、装置、电子设备和可读存储介质
CN113792129B (zh) * 2021-09-16 2024-06-14 联通在线信息科技有限公司 一种智能会话方法、装置、计算机设备及介质
CN114003724B (zh) * 2021-12-30 2022-03-25 北京云迹科技股份有限公司 一种样本筛选方法、装置及电子设备
CN114416954B (zh) * 2022-01-21 2024-07-05 平安国际智慧城市科技股份有限公司 文本检索方法、装置、设备及存储介质
CN114417192B (zh) * 2022-03-28 2022-07-12 北京百度网讯科技有限公司 更新兴趣点poi状态的方法、装置、设备、介质及产品
CN114625984B (zh) * 2022-03-31 2023-07-25 北京百度网讯科技有限公司 兴趣点验证方法、装置、电子设备及存储介质
CN115002675A (zh) * 2022-05-23 2022-09-02 北京字节跳动科技有限公司 数据匹配方法、装置、可读介质及电子设备
CN114925680A (zh) * 2022-05-26 2022-08-19 北京京东振世信息技术有限公司 物流兴趣点信息生成方法、装置、设备和计算机可读介质
CN116341567B (zh) * 2023-05-29 2023-08-29 山东省工业技术研究院 基于空间与语义邻居信息的兴趣点语义标注方法及系统
CN117076810A (zh) * 2023-10-12 2023-11-17 睿至科技集团有限公司 一种基于人工智能的互联网大数据处理系统及方法
CN117725324B (zh) * 2024-02-08 2024-05-24 腾讯科技(深圳)有限公司 地图搜索方法及装置、电子设备、存储介质、程序产品

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006267418A (ja) * 2005-03-23 2006-10-05 Denso Corp 地図データ検査装置及び地図データの検査方法
CN101221562A (zh) * 2007-01-08 2008-07-16 华硕电脑股份有限公司 网络地图服务平台的数据更新方法及其系统
CN105138523A (zh) * 2014-05-30 2015-12-09 富士通株式会社 在文本中确定语义关键词的方法和装置
CN105279249A (zh) * 2015-09-30 2016-01-27 北京奇虎科技有限公司 一种网站中兴趣点数据的置信度的判定方法和装置
CN105302794A (zh) * 2015-10-30 2016-02-03 苏州大学 一种中文同指事件识别方法及系统
CN105468679A (zh) * 2015-11-13 2016-04-06 中国人民解放军国防科学技术大学 一种旅游信息处理与方案提供方法
US20160132513A1 (en) * 2014-02-05 2016-05-12 Sk Planet Co., Ltd. Device and method for providing poi information using poi grouping
CN105718470A (zh) * 2014-12-03 2016-06-29 高德软件有限公司 一种poi数据处理方法和装置
US20170053037A1 (en) * 2015-08-18 2017-02-23 Lenovo (Singapore) Pte. Ltd. Validation of internet address input to a device
CN106844571A (zh) * 2017-01-03 2017-06-13 北京齐尔布莱特科技有限公司 识别同义词的方法、装置和计算设备
CN107784125A (zh) * 2017-11-24 2018-03-09 中国银行股份有限公司 一种实体关系抽取方法及装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4957796B2 (ja) 2007-05-24 2012-06-20 富士通株式会社 差分算出プログラム、差分算出装置および差分算出方法
JP5414284B2 (ja) * 2009-01-14 2014-02-12 株式会社 ミックウェア 地図情報処理装置、ナビゲーション装置、地図情報処理方法、およびプログラム
US20100179754A1 (en) * 2009-01-15 2010-07-15 Robert Bosch Gmbh Location based system utilizing geographical information from documents in natural language
US8589069B1 (en) * 2009-11-12 2013-11-19 Google Inc. Enhanced identification of interesting points-of-interest
US8892355B2 (en) * 2011-12-21 2014-11-18 Telenav, Inc. Navigation system with point of interest validation mechanism and method of operation thereof
US8521539B1 (en) * 2012-03-26 2013-08-27 Nuance Communications, Inc. Method for chinese point-of-interest search
US20140006408A1 (en) * 2012-06-29 2014-01-02 Yahoo! Inc. Identifying points of interest via social media
US20160147826A1 (en) * 2013-07-18 2016-05-26 Nokia Technologies Oy Method and apparatus for updating points of interest information via crowdsourcing
US9843893B2 (en) * 2014-09-09 2017-12-12 Here Global B.V. Method and apparatus for providing point-of-interest detection via feature analysis and mobile device position information
WO2019236588A1 (en) * 2018-06-04 2019-12-12 The Research Foundation For The State University Of New York System and method associated with expedient determination of location of one or more object(s) within a bounded perimeter of 3d space based on mapping and navigation to a precise poi destination using a smart laser pointer device

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006267418A (ja) * 2005-03-23 2006-10-05 Denso Corp 地図データ検査装置及び地図データの検査方法
CN101221562A (zh) * 2007-01-08 2008-07-16 华硕电脑股份有限公司 网络地图服务平台的数据更新方法及其系统
US20160132513A1 (en) * 2014-02-05 2016-05-12 Sk Planet Co., Ltd. Device and method for providing poi information using poi grouping
CN105138523A (zh) * 2014-05-30 2015-12-09 富士通株式会社 在文本中确定语义关键词的方法和装置
CN105718470A (zh) * 2014-12-03 2016-06-29 高德软件有限公司 一种poi数据处理方法和装置
US20170053037A1 (en) * 2015-08-18 2017-02-23 Lenovo (Singapore) Pte. Ltd. Validation of internet address input to a device
CN105279249A (zh) * 2015-09-30 2016-01-27 北京奇虎科技有限公司 一种网站中兴趣点数据的置信度的判定方法和装置
CN105302794A (zh) * 2015-10-30 2016-02-03 苏州大学 一种中文同指事件识别方法及系统
CN105468679A (zh) * 2015-11-13 2016-04-06 中国人民解放军国防科学技术大学 一种旅游信息处理与方案提供方法
CN106844571A (zh) * 2017-01-03 2017-06-13 北京齐尔布莱特科技有限公司 识别同义词的方法、装置和计算设备
CN107784125A (zh) * 2017-11-24 2018-03-09 中国银行股份有限公司 一种实体关系抽取方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
冯兴杰等: "基于卷积神经网络和注意力模型的文本情感分析", 《计算机应用研究》 *

Cited By (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460056B (zh) * 2019-01-22 2023-06-20 阿里巴巴集团控股有限公司 一种过期poi的挖掘方法及装置
CN111460056A (zh) * 2019-01-22 2020-07-28 阿里巴巴集团控股有限公司 一种过期poi的挖掘方法及装置
CN112015888A (zh) * 2019-05-31 2020-12-01 百度在线网络技术(北京)有限公司 摘要信息提取方法和摘要信息提取系统
CN112015888B (zh) * 2019-05-31 2023-08-18 百度在线网络技术(北京)有限公司 摘要信息提取方法和摘要信息提取系统
CN110232160B (zh) * 2019-06-20 2021-12-07 北京百度网讯科技有限公司 兴趣点变迁事件检测方法、装置及存储介质
CN110232160A (zh) * 2019-06-20 2019-09-13 北京百度网讯科技有限公司 兴趣点变迁事件检测方法、装置及存储介质
CN110795515B (zh) * 2019-08-26 2022-04-12 腾讯科技(深圳)有限公司 兴趣点poi的处理方法、装置、电子设备及计算机存储介质
CN110795515A (zh) * 2019-08-26 2020-02-14 腾讯科技(深圳)有限公司 兴趣点poi的处理方法、装置、电子设备及计算机存储介质
CN110781413A (zh) * 2019-08-28 2020-02-11 腾讯大地通途(北京)科技有限公司 兴趣点确定方法及装置、存储介质、电子设备
CN110781413B (zh) * 2019-08-28 2024-01-30 腾讯大地通途(北京)科技有限公司 兴趣点确定方法及装置、存储介质、电子设备
CN111858787A (zh) * 2019-09-24 2020-10-30 北京嘀嘀无限科技发展有限公司 一种poi信息获取的方法及装置
CN110851738A (zh) * 2019-10-28 2020-02-28 百度在线网络技术(北京)有限公司 获取poi状态信息的方法、装置、设备和计算机存储介质
US11709999B2 (en) 2019-10-28 2023-07-25 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for acquiring POI state information, device and computer storage medium
CN112781604A (zh) * 2019-11-08 2021-05-11 逸驾智能科技有限公司 用于导航的方法、装置、设备和计算机可读存储介质
CN112781604B (zh) * 2019-11-08 2024-02-09 逸驾智能科技有限公司 用于导航的方法、装置、设备和计算机可读存储介质
CN111026937B (zh) * 2019-11-13 2021-02-19 百度在线网络技术(北京)有限公司 提取poi名称的方法、装置、设备和计算机存储介质
US11768892B2 (en) 2019-11-13 2023-09-26 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for extracting name of POI, device and computer storage medium
CN111026937A (zh) * 2019-11-13 2020-04-17 百度在线网络技术(北京)有限公司 提取poi名称的方法、装置、设备和计算机存储介质
CN111259018B (zh) * 2020-01-08 2023-03-21 北京百度网讯科技有限公司 生效验证方法、装置、电子设备及存储介质
CN111259018A (zh) * 2020-01-08 2020-06-09 北京百度网讯科技有限公司 生效验证方法、装置、电子设备及存储介质
US11954296B2 (en) 2020-01-20 2024-04-09 Tencent Technology (Shenzhen) Company Limited Flexible capacitive tactile sensor and method for manufacturing same and tactile sensing system
CN111309834A (zh) * 2020-01-20 2020-06-19 腾讯云计算(北京)有限责任公司 一种无线热点与兴趣点的匹配方法及装置
CN111309834B (zh) * 2020-01-20 2023-05-12 腾讯云计算(北京)有限责任公司 一种无线热点与兴趣点的匹配方法及装置
CN111522888A (zh) * 2020-04-22 2020-08-11 北京百度网讯科技有限公司 挖掘兴趣点之间的竞争关系的方法和装置
US11580124B2 (en) 2020-04-22 2023-02-14 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for mining competition relationship POIs
CN111797183A (zh) * 2020-05-29 2020-10-20 汉海信息技术(上海)有限公司 挖掘信息点的道路属性的方法、装置及电子设备
CN111782741A (zh) * 2020-06-04 2020-10-16 汉海信息技术(上海)有限公司 兴趣点挖掘方法、装置、电子设备及存储介质
CN111753195B (zh) * 2020-06-17 2024-01-09 百度在线网络技术(北京)有限公司 标签体系构建方法、装置、设备以及存储介质
CN111753195A (zh) * 2020-06-17 2020-10-09 百度在线网络技术(北京)有限公司 标签体系构建方法、装置、设备以及存储介质
CN111832483B (zh) * 2020-07-14 2024-03-08 北京百度网讯科技有限公司 一种兴趣点有效性识别方法、装置、设备以及存储介质
CN111832483A (zh) * 2020-07-14 2020-10-27 北京百度网讯科技有限公司 一种兴趣点有效性识别方法、装置、设备以及存储介质
CN111860503A (zh) * 2020-07-16 2020-10-30 北京奇虎科技有限公司 信息点有效性识别方法、装置、设备及存储介质
CN112417322B (zh) * 2020-12-10 2024-03-22 长春理工大学 一种面向兴趣点名称文本的类型判别方法及系统
CN112417322A (zh) * 2020-12-10 2021-02-26 长春理工大学 一种面向兴趣点名称文本的类型判别方法及系统
CN112818972A (zh) * 2020-12-25 2021-05-18 北京百度网讯科技有限公司 兴趣点图像的检测方法、装置、电子设备及存储介质
CN112818972B (zh) * 2020-12-25 2024-03-22 北京百度网讯科技有限公司 兴趣点图像的检测方法、装置、电子设备及存储介质
JP7362998B2 (ja) 2021-02-22 2023-10-18 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド Poi状態情報を取得する方法、及び装置
WO2022174552A1 (zh) * 2021-02-22 2022-08-25 北京百度网讯科技有限公司 获取poi状态信息的方法及装置
JP2023519049A (ja) * 2021-02-22 2023-05-10 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド Poi状態情報を取得する方法、及び装置
US11977574B2 (en) 2021-02-22 2024-05-07 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for acquiring POI state information
CN113515944A (zh) * 2021-03-23 2021-10-19 汉海信息技术(上海)有限公司 兴趣点的别名挖掘方法、装置、设备及存储介质
CN114860836A (zh) * 2022-05-24 2022-08-05 北京百度网讯科技有限公司 失效兴趣点的挖掘方法及装置、设备和介质
CN114860836B (zh) * 2022-05-24 2023-03-10 北京百度网讯科技有限公司 失效兴趣点的挖掘方法及装置、设备和介质

Also Published As

Publication number Publication date
KR102302367B1 (ko) 2021-09-15
KR20200029342A (ko) 2020-03-18
CN109145219B (zh) 2020-12-25
JP2020042779A (ja) 2020-03-19
JP6846469B2 (ja) 2021-03-24
EP3623762A1 (en) 2020-03-18
EP3623762B1 (en) 2021-10-06
US20200081908A1 (en) 2020-03-12
US11347782B2 (en) 2022-05-31

Similar Documents

Publication Publication Date Title
CN109145219A (zh) 基于互联网文本挖掘的兴趣点有效性判断方法和装置
CN107992596B (zh) 一种文本聚类方法、装置、服务器和存储介质
CN111107048B (zh) 一种钓鱼网站检测方法、装置和存储介质
CN107463704A (zh) 基于人工智能的搜索方法和装置
US8856129B2 (en) Flexible and scalable structured web data extraction
CN107220386A (zh) 信息推送方法和装置
CN109145280A (zh) 信息推送的方法和装置
CN103455545A (zh) 社交网络用户的位置估计的方法和系统
US20170243112A1 (en) Deep learning approach to identify comparative reference incidents
CN108984554A (zh) 用于确定关键词的方法和装置
CN111666766B (zh) 数据处理方法、装置和设备
CN109284498A (zh) 自提柜推荐方法、自提柜推荐装置和电子装置
CN107526718A (zh) 用于生成文本的方法和装置
CN107908615A (zh) 一种获取搜索词对应商品类目的方法和装置
CN108073708A (zh) 信息输出方法和装置
CN113393306A (zh) 产品推荐方法、装置、电子设备及计算机可读介质
CN111428486B (zh) 物品信息数据处理方法、装置、介质及电子设备
US20230376691A1 (en) Method for point-of-interest information management, electronic device, and storage medium
CN113449109A (zh) 安全类别标签检测方法、装置、计算机设备及存储介质
CN111460206A (zh) 图像处理方法、装置、电子设备和计算机可读存储介质
CN115017385A (zh) 一种物品搜索方法、装置、设备和存储介质
CN114897099A (zh) 基于客群偏差平滑优化的用户分类方法、装置及电子设备
CN108733702A (zh) 用户查询上下位关系提取的方法、装置、电子设备和介质
CN109388753A (zh) 用于处理信息的方法和装置
CN115187809B (zh) 分类及分类模型训练方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant