CN116508004A - 用于兴趣点信息管理的方法、电子设备和存储介质 - Google Patents

用于兴趣点信息管理的方法、电子设备和存储介质 Download PDF

Info

Publication number
CN116508004A
CN116508004A CN202180071783.0A CN202180071783A CN116508004A CN 116508004 A CN116508004 A CN 116508004A CN 202180071783 A CN202180071783 A CN 202180071783A CN 116508004 A CN116508004 A CN 116508004A
Authority
CN
China
Prior art keywords
point
interest
information
determining
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180071783.0A
Other languages
English (en)
Inventor
方建伟
相奇
徐平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pateo Connect Nanjing Co Ltd
Original Assignee
Pateo Connect Nanjing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pateo Connect Nanjing Co Ltd filed Critical Pateo Connect Nanjing Co Ltd
Publication of CN116508004A publication Critical patent/CN116508004A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/543User-generated data transfer, e.g. clipboards, dynamic data exchange [DDE], object linking and embedding [OLE]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本公开的实施例涉及用于兴趣点信息管理的方法、设备和存储介质,涉及信息处理领域。根据该方法,获取网页链接;获取与网页链接相关联的网页文本;从兴趣点信息库获取与网页文本相匹配的至少一项兴趣点信息;以及呈现至少一项兴趣点信息。由此,能够从分享的网页链接提取兴趣点信息并进行呈现,以便于后续统一收藏。

Description

用于兴趣点信息管理的方法、电子设备和存储介质
相关申请的交叉引用
本申请要求于2020年10月27日提交于中国国家知识产权局(CNIPA)的专利申请号为202011161539.7的中国专利申请的优先权和权益,上述中国专利申请通过引用整体并入本文。
技术领域
本公开的实施例总体涉及信息处理领域,具体涉及用于兴趣点信息管理的方法、电子设备和计算机存储介质。
背景技术
用户经常在各种应用或者网站阅读诸如美食、旅游等的文章。文章中会提及景点名称、饭店地址等兴趣点。传统上,用户可以在这些应用或网站收藏包含喜欢兴趣点的文章,以便后续查找或进行出行规划。但是由于这些应用或网站众多且分散,这些文章也往往分散,查找这些兴趣点非常不便。此外,就算找回一篇文章,往往也需要重头阅读,找出这些兴趣点,比较费力。
发明内容
提供了一种用于兴趣点信息管理的方法、电子设备以及计算机存储介质,能够实现从分享的网页链接提取兴趣点信息并呈现,以便于统一收藏。另外,根据本申请示例性实施方式的兴趣点信息管理方法、电子设备以及计算机存储介质能够支持一站式兴趣点信息管理,使得用户无需在各个应用或网站查找相关文章并进行人工提取兴趣点,提高了阅读和查找效率。
根据本公开的第一方面,提供了一种用于兴趣点信息管理的方法。该方法包括:获取网页链接;获取与网页链接相关联的网页文本;从兴趣点信息库获取与网页文本相匹配的至少一项兴趣点信息;以及呈现至少一项兴趣点信息。
在一些示例性实施方式中,可以经由剪贴板来获取网页链接。替代地,还可以通过分享模块来获取网页链接。
在一些示例性实施方式中,该方法还可包括以下步骤:响应于检测到针对至少一项兴趣点信息中的第一兴趣点信息执行了预定操作,呈现从当前位置到第一兴趣点信息中指示的地址的路线和第一可操作图标;以及响应于检测到针对第一可操作图标执行了预定操作,将路线设置为目标行程。
在一些示例性实施方式中,获取至少一项兴趣点信息可包括以下步骤:确定网页文本的内容类别;以及响应于确定出内容类别为第一内容类别,基于地址匹配规则从网页文本获取地址信息集合;从兴趣点信息库获取与地址信息集合相匹配的多项兴趣点信息,多项兴趣点信息包括多个兴趣点标识;基于自然语言处理模型,从多个兴趣点标识中确定与网页文本相匹配的至少一个兴趣点标识;以及从多项兴趣点信息获取与至少一个兴趣点标识相关联的兴趣点信息作为至少一项兴趣点信息。
在一些示例性实施方式中,获取至少一项兴趣点信息可包括以下步骤:确定网页文本的内容类别;以及响应于确定出内容类别为第二内容类别,基于实体识别模型,从网页文本确定被标注为预定标签的至少一个词语;以及从兴趣点信息库获取与至少一个词语相匹配的兴趣点信息作为至少一项兴趣点信息。
在一些示例性实施方式中,确定网页文本的内容类别包括以下步骤:在网页文本中确定与第一内容类别相关联的第一词语的第一频次以及与第二内容类别相关联的第二词语的第二频次;以及响应于确定出第一频次大于第二频次,确定内容类别为第一内容类别;或者响应于确定出第一频次小于第二频次,确定内容类别为第二内容类别;或者响应于确定出第一频次等于第二频次,从网页文本获取与词语库匹配的词语集合,并将词语集合输入文本分类模型,以确定内容类别为第一内容类别或第二内容类别。
在一些示例性实施方式中,确定第一频次和第二频次包括以下步骤:从网页文本获取标题信息;以及确定标题信息中与第一内容类别 相关联的第一词语的第一频次以及与第二内容类别相关联的第二词语的第二频次。
在一些示例性实施方式中,确定与网页文本相匹配的至少一个兴趣点标识包括以下步骤:基于多个兴趣点标识,生成词典;基于自然语言处理模型,根据词典对网页文本进行分词,以得到分词结果;以及在词典中确定与分词结果相匹配的至少一个兴趣点标识。
在一些示例性实施方式中,确定与网页文本相匹配的至少一个兴趣点标识还包括以下步骤:确定至少一个兴趣点标识在分词结果中的至少一个频次;以及按照至少一个频次,对至少一项兴趣点标识进行排序。
在一些示例性实施方式中,确定与网页文本相匹配的至少一个兴趣点标识还包括以下步骤:从经排序的至少一项兴趣点标识中删除在分词结果中的频次低于预定频次的兴趣点标识。
在一些示例性实施方式中,获取与至少一个词语相匹配的至少一项兴趣点信息包括以下步骤:基于实体识别模型,从网页文本确定被标注为位置标签的多个区域标识;从多个区域标识确定在网页文本中频次最高的第一区域标识;以及从兴趣点信息库获取位于第一区域标识相关联的区域内并且与至少一个词语相匹配的兴趣点信息作为至少一项兴趣点信息。
在一些示例性实施方式中,该方法还可包括以下步骤:获取与网页链接相关联的图片;从图片获取文字信息;从兴趣点信息库获取与文字信息相匹配的第一兴趣点位置;基于至少一项兴趣点信息中的至少一项兴趣点位置与第一兴趣点位置之间的距离,确定与至少一项兴趣点信息相关联的至少一个第一可信度评分;从预定服务器获取与至少一项兴趣点信息相关联的至少一项用户评价数据;基于至少一项用户评价数据,确定与至少一项兴趣点信息相关联的至少一个第二可信度评分;基于至少一个第一可信度评分和至少一个第二可信度评分,确定与至少一项兴趣点信息相关联的至少一个最终可信度评分;以及呈现至少一个最终可信度评分。示例性地,可以基于文字识别模型,从图片获取文字信息。
在一些示例性实施方式中,呈现至少一项兴趣点信息包括:基于至少一个最终可信度评分,对至少一项兴趣点信息进行排序;以及呈现经排序的至少一项兴趣点。
在一些示例性实施方式中,该方法还可包括以下步骤:呈现与至少一项兴趣点信息相关联的至少一个可选择图标;以及响应于检测到针对至少一个可选择图标中的第一可选择图标执行了选择操作,将与第一可选择图标相关联的第一兴趣点信息添加到兴趣点收藏列表。
根据本公开的第二方面,提供了一种电子设备。该电子设备包括:至少一个处理器,以及与至少一个处理器通信连接的存储器,其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行根据第一方面所述的方法。
在本公开的第三方面中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现根据本公开的第一方面的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标注表示相同或相似的元素。
图1A和图1B分别是根据本公开的实施例的信息处理环境100a和100b的示意图。
图2是根据本公开的实施例的用于兴趣点信息管理的方法200的示意图。
图3示出了根据本公开的实施例的用于获取至少一项兴趣点信息140的方法300的流程图。
图4示出了根据本公开的实施例的用于确定网页文本的内容类别的方法400的流程图。
图5示出了根据本公开的实施例的用于确定与网页文本相匹配的至少一个兴趣点标识的方法500的流程图。
图6示出了根据本公开的实施例的用于获取与至少一个词语相匹配的至少一项兴趣点信息的方法600的流程图。
图7是根据本公开的实施例的实体提取模型700的框图。
图8是根据本公开的实施例的第一呈现界面800的示意图。
图9是根据本公开的实施例的第二呈现界面900的示意图。
图10是用来实现本公开实施例的用于兴趣点信息管理的方法的电子设备的框图。
图11A至图11C示出了基于分享功能获取网页链接130的界面示意图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
如上所述,传统收藏的兴趣点文章分散在各个应用或网站,后续查找不方便,并且找到文章之后仍然需要人工确定兴趣点,比较费时费力。
为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个,本公开的示例实施例提出了一种用于兴趣点信息管理的方案。在该方案中,获取网页链接;获取与网页链接相关联的网页文本;从 兴趣点信息库获取与网页文本相匹配的至少一项兴趣点信息;以及呈现至少一项兴趣点信息。以此方式,能够从分享的网页链接提取兴趣点信息并呈现,以便于统一收藏。应当理解,本文中所讨论的分享应至少包括从第三方应用程序通过分享功能分享链接及通过复制的方式分享链接。
在下文中,将结合附图更详细地描述本方案的具体示例。
图1A和图1B分别示出了根据本公开的实施例的信息处理环境100a和100b的示例的示意图。
信息处理环境100a、100b可以包括计算设备110、网页链接130、至少一项兴趣点信息140以及兴趣点信息库150。在一些实施方式中,可以经由剪贴板120获取网页链接130,如图1A所示。此外,也可以基于分享功能通过分享模块160获取网页链接130,如图1B所示。应当理解,虽然图1A和图1B中均示出了3项兴趣点信息140-1、140-2以及140-3,但是这只是示例,兴趣点信息的数量可以更多或更少,本公开的范围在此不受限制。
计算设备110例如包括但不限于智能手机、个人计算机、台式计算机、膝上型计算机、平板计算机、个人数字助理等。
计算设备110的操作系统可以通过分享在多个应用之间传递数据,例如网页链接。在如图1A所示的信息处理环境100a中,计算设备110的操作系统可以通过复制的方式,藉由剪切板120在多个应用之间传递数据,例如网页链接。例如,计算设备110中的第一应用可呈现网页链接130,在接收到用户的复制链接指令时,可以将该网页链接复制到剪贴板120,随后第二应用可以从剪贴板120获取该网页链接130。而在如图1B所示的信息处理环境100b中,计算设备110的操作系统还可以直接通过应用程序的分享功能实现数据(例如,网页链接)的传递。例如,计算设备110中的第一应用可通过分享功能选择将网页链接130分享至第二应用,随后第二应用被自动打开并可以获取到该网页链接130。
在使用通过分享功能实现数据传递时,需要预先激活指定应用程序的分享功能。该指定应用程序的分享需要支持第三方应用(即不同 于指定应用程序的其他应用程序,例如上文中所述的第一应用)打开的能力。另需要说明的是,当该应用程序在不同的平台上运行时,通过分享功能实现数据传递的前提条件会略有不同,下面将具体说明在Android系统和iOS系统下通过分享功能实现数据传递的前提差异。
在Android系统中,为实现通过分享功能获取网页链接,需应用程序首先注册通过浏览器访问的功能,例如预先创建隐式意图(Implicit Intent)以选取调用分享内容所使用的应用程序。如此,在使用第三方应用浏览网页并发起浏览器访问的操作时,已注册过浏览器访问的应用程序就会被展示出来。用户可以通过选择使用该应用程序打开,来启动该应用程序。同时,会将第三方应用当前浏览的网页链接地址输入到该应用程序。
而在iOS系统中,则需要预先创建分享扩展(Share Extension)。具体而言,需要为指定应用程序预先创建分享扩展,并激活该分享扩展。如此,在使用第三方应用浏览网页并点击分享按钮时,便会显示已激活的分享扩展。通过选择指定应用程序的分享扩展来启动该应用程序,并同时将第三方应用当前浏览的网页链接地址输入到该应用程序。
兴趣点信息库150可以位于远端服务器,其与计算设备110之间可以通信连接。兴趣点信息库150可以存储有多项兴趣点信息,兴趣点信息例如可以包括兴趣点标识、兴趣点位置或地址、兴趣点描述以及相关图片等等。计算设备110可以通过搜索引擎搜索兴趣点信息库150,例如通过兴趣点标识或兴趣点位置进行搜索,从兴趣点信息库150获取相匹配的兴趣点信息。
计算设备110用于获取网页链接130;获取与网页链接130相关联的网页文本;从兴趣点信息库150获取与网页文本相匹配的至少一项兴趣点信息140;以及呈现至少一项兴趣点信息140。
由此,能够从分享的网页链接提取兴趣点信息进行呈现,以便于用户统一收藏。
图2示出了根据本公开的实施例的用于兴趣点信息管理的方法200的流程图。例如,方法200可以由如图1所示的计算设备110来 执行。应当理解的是,方法200还可以包括未示出的附加框和/或可以省略所示出的框,本公开的范围在此方面不受限制。
在框202处,计算设备110获取网页链接130。在示例性实施方式中,计算设备110可以从剪贴板120获取网页链接130,或者,计算设备110可以通过分享模块160获取网页链接130。在使用剪贴板120获取网页链接130的情形中,剪贴板120中的网页链接130例如是用户从某一应用或网站复制到剪贴板120。使用分享模块160获取网页链接130的情形将在下文中具体描述。
在框204处,计算设备110获取与网页链接130相关联的网页文本。例如,计算设备110可以获取与网页链接130相关联的网页数据,随后计算设备110可以解析网页数据,从中获取网页文本。在一些实施例中,获取的网页文本为网页中文文本。应当理解,本申请中所提及的网页数据不限于文字文本格式的网页数据,还可以包括例如图片格式、音频格式和视频格式等的网页数据。对于图片格式的网页数据,可以通过例如光学字符识别(OCR)等方式对图片进行解析,从中获取文本内容。对于音频格式和视频格式的网页数据,可以通过例如转录的方式将语音转录并从中获取文本内容。
在框206处,计算设备110从兴趣点信息库150获取与网页文本相匹配的至少一项兴趣点信息140。例如可以从网页文本获取关键词,基于从兴趣点信息库150获取与关键词相匹配的至少一项兴趣点信息140。下文将详细描述用于获取至少一项兴趣点信息140的方法。
在框208处,计算设备110呈现至少一项兴趣点信息140。例如,可以通过列表形式呈现至少一项兴趣点信息140。
由此,能够从分享的网页链接提取兴趣点信息并呈现,以便于用户统一收藏,支持一站式兴趣点信息管理,无需在各个应用或网站查找相关文章并进行人工提取兴趣点,提高了效率。
图11A至图11C示出了基于分享功能获取网页链接130的界面示意图。
图11A示出了计算设备110中的第一应用在阅读网页时的界面1100a。界面1100a可以包括图片显示区1110、标题显示区1120以及 正文显示区1130。用户在进行阅读时,可以通过点击界面或通过上下滑动手势来查看网页内容。在用户阅读到感兴趣的网页内容时,可以通过点击界面1100a右上角的“更多”图标1140来进行分享。
在点击了“更多”图标1140之后,界面将切换到界面1100b,如图11B所示。界面1100b可以包括下部弹窗1160,用户可以通过选择下部弹窗1160中的对应图标,来分享网页内容。例如,用户可以通过选择下部弹窗1160中的“在浏览器打开”或“分享到XXX”,以将网页分享模块到其他应用程序,例如,车联应用程序。
在具体指定了分享网页链接130的第二应用程序之后,第二应用被自动打开并可以获取到由第一程序分享的网页链接130。此时,界面跳转到界面1100c。在界面1100c中,至少一项兴趣点信息被呈现在页面弹窗1170中。在示例性实施方式中,页面弹窗1170中所呈现的兴趣点信息可以包括兴趣点名称、地址信息以及距当前位置的距离等信息。另外,通过网页链接130所链接到的网页内容被呈现在区域1180中。
图3示出了根据本公开的实施例的用于获取至少一项兴趣点信息140的方法300的流程图。例如,方法300可以由如图1所示的计算设备110来执行。应当理解的是,方法300还可以包括未示出的附加框和/或可以省略所示出的框,本公开的范围在此方面不受限制。
在框302处,计算设备110确定网页文本的内容类别。
在一些实施例中,计算设备110可以从网页文本获取与词语库相匹配的词语集合。词语库例如为基于从训练文本集提取的高频词语而生成的。高频词语可以理解为在训练文本集中出现次数为前n位的词语。随后,计算设备110可以将词语集合输入文本分类模型,以得到网页文本的内容类别。文本分类模型例如包括但不限于textCNN。内容类别可以包括第一内容类别和第二内容类别。第一内容类别例如包括但不限于美食类,以及第二内容类别例如包括但不限于景点类。
例如,可以统计训练文本集中的词语的出现次数,将出现次数排在前n位的词语组成词语库。对训练文本集可以标注内容类别标签,例如第一内容类别或第二内容类别,得到标签集。在训练过程中,可 以从训练文本中获取与词语库匹配的词语集合,随后基于词语集合生成特征矩阵,将特征矩阵输入文本分类模型(例如textCNN)进行训练,将所得到的结果与该训练文本所关联标签所转化的目标矩阵进行对比,计算损失值进行梯度下降。损失函数例如可以使用交叉熵,激活函数可以使用ReLU。通过测试集对模型进行测试,保存训练效果最好的模型用于预测。
在框304处,计算设备110确定内容类别是否为第一内容类别。第一内容类别例如包括美食类别。
如果计算设备110在框304处确定内容类别为第一内容类别,则在框306处,计算设备110基于地址匹配规则,从网页文本获取地址信息集合。地址信息集合例如可以包括一项或多项地址信息,地址信息例如为地址字符串。
在一些实施例中,计算设备110可以基于正则表达式,从网页文本获取有效文本信息。正则表达式例如包括但不限于([0-9a-zA-Z]*[\u4e00-\u9fa5]+[0-9a-zA-Z]*)+(\\([\u4e00-\u9fa5]+\\))*。有效文本信息例如包括数字、字母和/或中文词语等信息。
随后,计算设备110可以基于地址匹配规则,从有效文本信息获取地址信息集合。地址匹配规则例如包括但不限于“**路**号/弄/街道/大厦/商场”。获取的地址信息集合中的地址信息例如为“天钥桥路30号”、“复兴中路10号”等等。
由此,能够先按照正则表达式提取有效文本信息,并基于地址匹配规则从有效文本信息中获得地址信息,避免无效文本信息对地址信息提取的干扰,提高地址信息提取的效率和准确性。
在框308处,计算设备110从兴趣点信息库150获取与地址信息集合相匹配的多项兴趣点信息,多项兴趣点信息包括多个兴趣点标识。一项兴趣点信息例如可以包括兴趣点标识、兴趣点地址、兴趣点坐标、兴趣点类型和/或兴趣点图片等。与地址信息集合相匹配的兴趣点信息指的是其兴趣点地址与地址信息集合中的任一地址信息相匹配的兴趣点信息。
兴趣点信息库150可以位于远端服务器。计算设备110可以对于 地址信息集合中的每个地址信息向该远端服务器发送搜索请求,该搜索请求包括该地址信息。随后,该远端服务器基于接收到的地址信息搜索兴趣点信息库150,确定与地址信息相匹配的多个兴趣点地址,以及获取与多个兴趣点地址相关联的多项兴趣点信息,并返回给计算设备110。
在框310处,计算设备110基于自然语言处理模型,从多个兴趣点标识中确定与网页文本相匹配的至少一个兴趣点标识。下文将结合图5详细说明用于确定与网页文本相匹配的至少一个兴趣点标识的方法。
在框312处,计算设备110从多项兴趣点信息获取与至少一个兴趣点标识相关联的兴趣点信息作为至少一项兴趣点信息140。
回到框304,如果在框304处确定内容类别为第二内容类别,则在框314处,计算设备110基于实体识别模型,从网页文本确定被标注为预定标签的至少一个词语。第二内容类别例如包括景点类别。例如,计算设备110可以基于实体识别模型对网页文本中的至少一个词语标注预定标签,随后获取被标注为预定标签的至少一个词语。
实体识别模型例如可以采用双向长短记忆网络(BiLSTM)加上条件随机场(CRF)的结构。例如,如图7所示,将网页文本中的字符串(例如,“西湖真漂亮”)转换成词向量w0-w4,然后将词向量w0-w4输入BiLSTM,得到每个词对应各个类别或标签(例如B-PER、B-ORG、I-ORG、I-PER、O、B-SPT(自定义景点类别或标签)等等)的分数。如w0,BiLSTM节点的输出是1.5(B-Person),0.9(I-Person),0.1(B-Organization),0.08(I-Organization)and 0.05(O)。这些分数将会是CRF层的输入。使用CRF损失函数,避免标注偏置,优化目标为让真实序列的概率最大化。采用维特比算法可以快速获得全局最优序列。最终输出字符串对应的标签序列,例如{B-PER,I-PER,O,B-ORG,O}。应当理解,上述说明只是举例,本公开的范围在此不受限制。
预定标签例如包括但不限于景点标签。例如,可以将训练文本中的景点名称(例如,西湖、灵隐寺等等)标注为景点标签,并按照BIOES标准对训练文本中的字进行标签标注,可以得到数据集,其包 括训练集和测试集。可以对训练文本进行预处理,例如特殊符号去除,错误标注删除等等。随后,可以分批次按照训练集对模型进行训练,每次迭代用测试集进行评估,保存最佳模型。保存的实体识别模块可以对输入的网页文本中的至少一个词语标注预定标签。
在一些实施例中,计算设备110还可以将网页文本与景点实体库进行全字符匹配,以得到匹配词语,以及将匹配词语添加到上述至少一个词语中。
在框316处,计算设备110从兴趣点信息库150获取与至少一个词语相匹配的至少一项兴趣点信息140。与至少一个词语相匹配的至少一项兴趣点信息指的是其兴趣点标识与至少一个词语相匹配的至少一项兴趣点信息。
由此,由于美食餐厅的名称变化多端,可能包括字母、数字和/或中文,并且餐厅变化频繁,可能文章中介绍的餐厅已经停业,而且餐厅数量巨大,无法通过大数据的打标来训练算法,并且需要频繁更新模型,重新训练,因此通过地址匹配加上分词的方法适合从美食类文章获取诸如美食餐厅的兴趣点信息。而景点类的数据相对稳定,数量也可以估计,名称相对简单,可以通过训练模型的方式实现更加智能的兴趣点信息提取。可见,通过先确定网页文本的内容类别,并在内容类别是美食类时通过地址匹配加分词来提取兴趣点信息,而在内容类别是景点类时通过实体识别来提取兴趣点信息,综合了两个类别的优势,使得兴趣点提取效率更高。
图4示出了根据本公开的实施例的用于确定网页文本的内容类别的方法400的流程图。例如,方法400可以由如图1所示的计算设备110来执行。应当理解的是,方法400还可以包括未示出的附加框和/或可以省略所示出的框,本公开的范围在此方面不受限制。
在框402处,计算设备110在网页文本中确定与第一内容类别相关联的第一词语的第一频次以及与第二内容类别相关联的第二词语的第二频次。第一词语例如包括但不限于“吃”、“餐”“美食”等,第二词语例如包括但不限于“景”等。
在一些实施例中,计算设备110可以从网页文本获取标题信息, 以及确定标题信息中与第一内容类别相关联的第一词语的第一频次以及与第二内容类别相关联的第二词语的第二频次。
在另一些实施例中,计算设备110可以在网页文本的标题信息和正文信息中确定与第一内容类别相关联的第一词语的第一频次以及与第二内容类别相关联的第二词语的第二频次。
在框404处,计算设备110确定第一频次是否等于第二频次。
如果在框404处计算设备110确定第一频次等于第二频次,则在框406处,计算设备110从网页文本获取与词语库匹配的词语集合。
在框408处,计算设备110将词语集合输入文本分类模型,以得到网页文本的内容类别。基于文本分类模型确定内容类别的过程可参见上文,这里不再赘述。
如果在框404处计算设备110确定第一频次不等于第二频次,则在框410处确定第一频次是否大于第二频次。
如果在框410处计算设备110确定第一频次大于第二频次,则在框412处确定内容类别为第一内容类别。
应当理解,虽然这里描述的顺序是先判断第一频次是否等于第二频次,再判断第一频次是否大于第二频次,但是这只是举例说明,也可再判断第一频次是否小于第二频次,或者先判断第一频次是否大于第二频次,再判断第一频次是否小于第二频次,或者反之亦然。
如果在框410处计算设备110确定第一频次小于第二频次,则在框414处,确定内容类别为第二内容类别。
由此,能够先基于网页文本中与内容类别相关联的词语的出现频次快速确定内容类别,在基于频次不容易确定内容类别的情况下再基于文本分类模型确定内容类别,从而提高内容类别的确定效率。此外,通过在网页文本的标题信息中确定上述频次,可以更快确定内容类别。
图5示出了根据本公开的实施例的用于确定与网页文本相匹配的至少一个兴趣点标识的方法500的流程图。例如,方法500可以由如图1所示的计算设备110来执行。应当理解的是,方法500还可以包括未示出的附加框和/或可以省略所示出的框,本公开的范围在此方面不受限制。
在框502处,计算设备110基于多个兴趣点标识,生成词典。
在框504处,计算设备110基于自然语言处理模型,根据词典对网页文本进行分词,以得到分词结果。分词结果可以包括多个分词。
自然语言处理模型例如包括但不限于正向最大名称匹配或者逆向最长匹配的中文分词算法。以正向最大名称匹配为例,假定词典中的最长词有i个汉字字符串,则将网页文本的当前字符串中的前i个字作为待匹配字段,查找词典。若此时词典中存在这样一个字符串,则匹配成功,此时被匹配的字段切分出来,作为一个分词。如果匹配失败,将待匹配字段中的最后一个字去掉,对剩下的字符串重新与词典进行匹配,如此下去直到匹配成功,也即是切分出一个词或剩余字串的长度为零为止,这个时候才是匹配了一轮,接着进行下一个i字字符串的匹配,方法同上,直到网页文本被扫描完为止,得到分词结果。逆向最长匹配算法与之类似,只是方向相反,不再赘述。
在框506处,计算设备110在词典中确定与分词结果相匹配的至少一个兴趣点标识。例如,将分词结果中的多个分词逐一查询词典,确定匹配的至少一个兴趣点标识。
由此,能够通过与文本中的地址信息相匹配的兴趣点标识作为词典来对文本进行分词,并根据分词结果匹配兴趣点标识,能够结合地址和分词更加准确地确定文本中出现的兴趣点标识。
备选地或者附加地,在一些实施例中,计算设备110还可以确定至少一个兴趣点标识在分词结果中的至少一个频次。例如,将分词结果中的多个分词逐一与至少一个兴趣点标识进行匹配,确定其频次。随后,计算设备110可以按照至少一个频次,对至少一项兴趣点标识进行排序。例如按照出现次数从高到低排序。
由此,能够基于兴趣点标识在分词结果中的频次对兴趣点标识进行排序,使得呈现的兴趣点信息是按照频次进行排序的。
备选地或者附加地,在一些实施例中,计算设备110还可以从经排序的至少一项兴趣点标识中删除在分词结果中的频次低于预定频次的兴趣点标识。
由此,能够使得得到的兴趣点标识为在分词结果中出现频次较高 的兴趣点标识,使得兴趣点标识更符合需求,提高用户体验。
图6示出了根据本公开的实施例的用于获取与至少一个词语相匹配的至少一项兴趣点信息的方法600的流程图。例如,方法600可以由如图1所示的计算设备110来执行。应当理解的是,方法600还可以包括未示出的附加框和/或可以省略所示出的框,本公开的范围在此方面不受限制。
在框602处,计算设备110基于实体识别模型,从网页文本确定被标注为位置标签的多个区域标识。区域标识例如包括但不限于城市标识,例如上海、北京、杭州等地。例如,除了上文提及的景点标签之外,还可以将训练文本中的区域标识(例如,北京、上海等等)标注为位置标签,并按照BIOES标准对训练文本中的字进行标签标注,可以得到数据集,其包括训练集和测试集。具体模型及训练可参见上文,不再赘述。
在框604处,计算设备110从多个区域标识确定在网页文本中频次最高的第一区域标识。例如,网页文本中提到了1次杭州,3次上海,10次北京,则可以确定频次最高为北京。
在框606处,计算设备110从兴趣点信息库150获取位于第一区域标识相关联的区域内并且与至少一个词语相匹配的至少一项兴趣点信息。上文确定的至少一个词语涉及人民公园,则第一区域标识为北京,则从兴趣点信息库150获取位于北京市的人民公园的相关兴趣点信息。
由此,通过进一步从网页文本识别区域标识并根据频次最高的区域标识来限定兴趣点匹配的区域,使得匹配出的兴趣点信息更准确。
备选地或者附加地,在一些实施例中,计算设备110还可以获取与网页链接相关联的图片。
随后,计算设备110可以获取图片中的文字信息。示例性地,计算设备110可以基于文字识别模型,从图片获取文字信息。例如,计算设备110可以先基于诸如cnstd的场景文字检测模型,在图片中确定文字位置,接着计算设备110从图片中获取文字位置处的图片部分,随后计算设备110基于诸如cnocr的光学文字识别模型,从该图片部 分获取文字信息。
接着,计算设备110从兴趣点信息库150获取与文字信息相匹配的第一兴趣点位置。在一些实施例中,计算设备110也可以获取图片的属性中的位置信息作为第一兴趣点位置。这里的位置信息例如包括但不限于经纬度信息。
计算设备110可以基于至少一项兴趣点信息中的至少一项兴趣点位置与第一兴趣点位置之间的距离,确定与至少一项兴趣点信息相关联的至少一个第一可信度评分。例如,对于与第一兴趣点位置之间的距离超过预定距离的兴趣点信息,其第一可信度评分可以为第一数值,例如30,对于与第一兴趣点位置之间的距离不超过预定距离的兴趣点信息,其第一可信度评分可以为大于第一数值的第二数值,例如60。
计算设备110还可以从预定服务器获取与至少一项兴趣点信息相关联的至少一项用户评价数据。预定服务器例如包括但不限于美食、景点点评类网站服务器。用户评价数据例如包括但不限于用户评价热度、评分等。
计算设备110基于至少一项用户评价数据,确定与至少一项兴趣点信息相关联的至少一个第二可信度评分。例如,可以将用户评分进行平均后乘以热度系数,得到第二可信度评分。低热度对应的热度系数也低,高热度对应的热度系数也高。热度例如可以分为3级别,热度1-3,热度1对应的热度系数例如为50%,热度2对应的热度系数例如为75%,热度3对应的热度系数例如为100%。
计算设备110接着基于至少一个第一可信度评分和至少一个第二可信度评分,确定与至少一项兴趣点信息相关联的至少一个最终可信度评分。例如,可以将第一可信度评分和第二可信度评分进行加权相加后得到最终可信度评分。第一可信度评分的加权系数例如为60%,第二可信度评分的加权系数例如为40%。
计算设备110最终呈现至少一个最终可信度评分。在一些实施例中,计算设备110可以基于至少一个最终可信度评分对至少一项兴趣点信息进行排序,并呈现经排序的至少一项兴趣点信息。例如,计算设备110可以基于至少一个最终可信度评分对至少一项兴趣点信息进 行排序,得到排序结果。随后,计算设备110可以呈现该排序结果。
由此,能够结合网页链接中的图片相关的位置信息和兴趣点的用户点评数据等多维度来确定兴趣点信息的可信度评分,向用户给出可信评估。此外,还可以按照可信度评分来对兴趣点信息排序后呈现,使得更可信的兴趣点信息排序更加靠前。
备选地或者附加地,在一些实施例中,如图8所示,计算设备110还可以呈现与至少一项兴趣点信息相关联的至少一个可选择图标。应当理解,虽然图8中示出的可选择图标的形状为星型,但是这只是为了举例说明,可选择图标的形状可以为任何合适的其他形状,例如包括但不限于圆形、方形等等。
计算设备110如果确定检测到针对至少一个可选择图标中的第一可选择图标801的选择操作,则将与第一可选择图标801相关联的第一兴趣点信息802添加到兴趣点收藏列表。应当理解,这里第一可选择图标和第一兴趣点信息可以为一个或多个。兴趣点收藏列表可以是先前建立的,也可以是基于该网页链接新建的。兴趣点收藏列表可以存储到计算设备110本地或者发送到服务器保存,以便于后续访问该兴趣点收藏列表。
由此,能够根据用户操作将选择的兴趣点信息收藏,以便后续访问。
备选地或者附加地,在一些实施例中,计算设备110还可以确定是否检测到针对至少一项兴趣点信息中的第一兴趣点信息的预定操作。预定操作例如包括但不限于点击、双击、长按等等。
如果计算设备110确定检测到针对第一兴趣点信息的选择操作,则可以如图9所示,呈现从当前位置到第一兴趣点信息中指示的地址的路线901和第一可操作图标902。如图9所示,第一可操作图标902还可以指示关于预设目标行程的说明。应当理解,虽然图9中显示的第一可操作图标902为按钮形状,但是这只是举例,第一可操作图标的形状也可以是其他合适的形状。在一些实施例中,如果计算设备110确定检测到针对第一兴趣点信息的选择操作,则还可以呈现第一兴趣点信息中包括的图片。
计算设备110还可以确定是否检测到针对第一可操作图标902的预定操作。预定操作可参见上文,这里不再赘述。
如果计算设备110确定检测到针对第一可操作图标902的预定操作,则可以将路线设置为目标行程。
由此,能够在选择第一兴趣点信息之后,呈现到第一兴趣点信息所指示地址的路线,并且根据用户操作设置为目标行程,无需用户针对兴趣点进行路线搜索,提高用户体验。
图10示出了可以用来实施本公开内容的实施例的示例设备1000的示意性框图。例如,如图1所示的计算设备110可以由设备1000来实施。如图所示,设备1000包括中央处理单元(CPU)1001,其可以根据存储在只读存储器(ROM)1002中的计算机程序指令或者从存储单元1008加载到随机存取存储器(RAM)1003中的计算机程序指令,来执行各种适当的动作和处理。在RAM 1003中,还可存储设备1000操作所需的各种程序和数据。CPU 1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。
设备1000中的多个部件连接至I/O接口1005,包括:输入单元1006,例如键盘、鼠标、麦克风等;输出单元1007,例如各种类型的显示器、扬声器等;存储单元1008,例如磁盘、光盘等;以及通信单元1009,例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
上文所描述的各个过程和处理,例如方法200-600,可由中央处理单元1001执行。例如,在一些实施例中,方法200-600可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1008。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序被加载到RAM 1003并由CPU 1001执行时,可以执行上文描述的方法200-600的一个或多个动作。
本公开涉及方法、装置、系统、电子设备、计算机可读存储介质 和/或计算机程序产品。计算机程序产品可以包括用于执行本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执 行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所 标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (14)

  1. 一种用于兴趣点信息管理的方法,包括以下步骤:
    从剪贴板获取网页链接;
    获取与所述网页链接相关联的网页文本;
    从兴趣点信息库获取与所述网页文本相匹配的至少一项兴趣点信息;
    呈现所述至少一项兴趣点信息;
    响应于检测到针对所述至少一项兴趣点信息中的第一兴趣点信息执行了预定操作,呈现从当前位置到所述第一兴趣点信息中指示的地址的路线和第一可操作图标;以及
    响应于检测到针对所述第一可操作图标执行了所述预定操作,将所述路线设置为目标行程。
  2. 根据权利要求1所述的方法,其中,获取所述至少一项兴趣点信息包括以下步骤:
    确定所述网页文本的内容类别;以及
    响应于确定出所述内容类别为第一内容类别,基于地址匹配规则从所述网页文本获取地址信息集合;
    从所述兴趣点信息库获取与所述地址信息集合相匹配的多项兴趣点信息,所述多项兴趣点信息包括多个兴趣点标识;
    基于自然语言处理模型,从所述多个兴趣点标识中确定与所述网页文本相匹配的至少一个兴趣点标识;以及
    从所述多项兴趣点信息获取与所述至少一个兴趣点标识相关联的兴趣点信息作为所述至少一项兴趣点信息。
  3. 根据权利要求1所述的方法,其中,获取所述至少一项兴趣点信息包括以下步骤:
    确定所述网页文本的内容类别;以及
    响应于确定出所述内容类别为第二内容类别,基于实体识别模型, 从所述网页文本确定被标注为预定标签的至少一个词语;以及
    从所述兴趣点信息库获取与所述至少一个词语相匹配的兴趣点信息作为所述至少一项兴趣点信息。
  4. 根据权利要求2或3所述的方法,其中,确定所述网页文本的所述内容类别包括以下步骤:
    在所述网页文本中确定与所述第一内容类别相关联的第一词语的第一频次以及与所述第二内容类别相关联的第二词语的第二频次;以及
    响应于确定出所述第一频次大于所述第二频次,确定所述内容类别为所述第一内容类别;或者
    响应于确定出所述第一频次小于所述第二频次,确定所述内容类别为所述第二内容类别;或者
    响应于确定出所述第一频次等于所述第二频次,从所述网页文本获取与词语库匹配的词语集合,并将所述词语集合输入文本分类模型,以确定所述内容类别为所述第一内容类别或所述第二内容类别。
  5. 根据权利要求4所述的方法,其中,确定所述第一频次和所述第二频次包括以下步骤:
    从所述网页文本获取标题信息;以及
    确定所述标题信息中与所述第一内容类别相关联的所述第一词语的所述第一频次以及与所述第二内容类别相关联的所述第二词语的所述第二频次。
  6. 根据权利要求2所述的方法,其中,确定与所述网页文本相匹配的所述至少一个兴趣点标识包括以下步骤:
    基于所述多个兴趣点标识,生成词典;
    基于所述自然语言处理模型,根据所述词典对所述网页文本进行分词,以得到分词结果;以及
    在所述词典中确定与所述分词结果相匹配的所述至少一个兴趣 点标识。
  7. 根据权利要求6所述的方法,其中,确定与所述网页文本相匹配的所述至少一个兴趣点标识还包括以下步骤:
    确定所述至少一个兴趣点标识在所述分词结果中的至少一个频次;以及
    按照所述至少一个频次,对所述至少一项兴趣点标识进行排序。
  8. 根据权利要求7所述的方法,其中,确定与所述网页文本相匹配的所述至少一个兴趣点标识还包括以下步骤:
    从经排序的所述至少一项兴趣点标识中删除在所述分词结果中的频次低于预定频次的兴趣点标识。
  9. 根据权利要求3所述的方法,其中,获取与所述至少一个词语相匹配的所述至少一项兴趣点信息包括以下步骤:
    基于实体识别模型,从所述网页文本确定被标注为位置标签的多个区域标识;
    从所述多个区域标识确定在所述网页文本中频次最高的第一区域标识;以及
    从所述兴趣点信息库获取位于所述第一区域标识相关联的区域内并且与所述至少一个词语相匹配的兴趣点信息作为所述至少一项兴趣点信息。
  10. 根据权利要求1所述的方法,还包括以下步骤:
    获取与所述网页链接相关联的图片;
    基于文字识别模型,从所述图片获取文字信息;
    从所述兴趣点信息库获取与所述文字信息相匹配的第一兴趣点位置;
    基于所述至少一项兴趣点信息中的至少一项兴趣点位置与所述第一兴趣点位置之间的距离,确定与所述至少一项兴趣点信息相关联 的至少一个第一可信度评分;
    从预定服务器获取与所述至少一项兴趣点信息相关联的至少一项用户评价数据;
    基于所述至少一项用户评价数据,确定与所述至少一项兴趣点信息相关联的至少一个第二可信度评分;
    基于所述至少一个第一可信度评分和所述至少一个第二可信度评分,确定与所述至少一项兴趣点信息相关联的至少一个最终可信度评分;以及
    呈现所述至少一个最终可信度评分。
  11. 根据权利要求10所述的方法,其中,呈现所述至少一项兴趣点信息包括:
    基于所述至少一个最终可信度评分,对所述至少一项兴趣点信息进行排序,以得到排序结果;以及
    呈现所述排序结果。
  12. 根据权利要求1所述的方法,还包括以下步骤:
    呈现与所述至少一项兴趣点信息相关联的至少一个可选择图标;以及
    响应于检测到针对所述至少一个可选择图标中的第一可选择图标执行了选择操作,将与所述第一可选择图标相关联的第一兴趣点信息添加到兴趣点收藏列表。
  13. 一种电子设备,包括:
    至少一个处理器;以及
    与所述至少一个处理器通信连接的存储器;其中,
    所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-12中任一项所述的方法。
  14. 一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-12中任一项所述的方法。
CN202180071783.0A 2020-10-27 2021-10-27 用于兴趣点信息管理的方法、电子设备和存储介质 Pending CN116508004A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011161539.7A CN112000495B (zh) 2020-10-27 2020-10-27 用于兴趣点信息管理的方法、电子设备和存储介质
PCT/CN2021/126663 WO2022089474A1 (zh) 2020-10-27 2021-10-27 用于兴趣点信息管理的方法、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN116508004A true CN116508004A (zh) 2023-07-28

Family

ID=73474431

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202011161539.7A Active CN112000495B (zh) 2020-10-27 2020-10-27 用于兴趣点信息管理的方法、电子设备和存储介质
CN202180071783.0A Pending CN116508004A (zh) 2020-10-27 2021-10-27 用于兴趣点信息管理的方法、电子设备和存储介质

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202011161539.7A Active CN112000495B (zh) 2020-10-27 2020-10-27 用于兴趣点信息管理的方法、电子设备和存储介质

Country Status (3)

Country Link
US (1) US20230376691A1 (zh)
CN (2) CN112000495B (zh)
WO (1) WO2022089474A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112000495B (zh) * 2020-10-27 2021-02-12 博泰车联网(南京)有限公司 用于兴趣点信息管理的方法、电子设备和存储介质

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100817479B1 (ko) * 2006-08-09 2008-03-27 에스케이 텔레콤주식회사 Poi의 유선전화번호를 이용한 모바일 웹페이지 연결방법 및 시스템, 그를 위한 모바일 웹페이지 서버와 그동작 방법
US8484028B2 (en) * 2008-10-24 2013-07-09 Fuji Xerox Co., Ltd. Systems and methods for document navigation with a text-to-speech engine
CN101750070B (zh) * 2008-12-01 2012-03-21 量子数位科技有限公司 智能型导航装置及其控制方法
CN102436512B (zh) * 2012-01-17 2013-05-08 电子科技大学 一种基于偏好度的网页文本内容管控方法
CN102841920B (zh) * 2012-06-30 2017-05-10 北京百度网讯科技有限公司 一种页面信息提取方法及装置
CN103514234B (zh) * 2012-06-30 2018-10-16 北京百度网讯科技有限公司 一种页面信息提取方法和装置
CN103984771B (zh) * 2014-06-04 2017-02-15 武汉大学 一种英文微博中地理兴趣点抽取和感知其时间趋势的方法
CN104699835B (zh) * 2015-03-31 2016-09-28 北京奇虎科技有限公司 用于确定网页页面中包括兴趣点poi数据的方法及装置
CN107491450A (zh) * 2016-06-13 2017-12-19 北京游谱科技发展有限公司 一种基于poi的行程修改方法及系统
CN110019201B (zh) * 2017-10-09 2023-03-07 阿里巴巴集团控股有限公司 一种生成结构化数据的方法、装置及系统
CN110609880A (zh) * 2018-06-15 2019-12-24 北京搜狗科技发展有限公司 一种信息查询方法、装置及电子设备
CN110457420B (zh) * 2019-08-13 2024-04-16 腾讯云计算(北京)有限责任公司 兴趣点位置识别方法、装置、设备及存储介质
CN110909170B (zh) * 2019-10-12 2022-09-23 百度在线网络技术(北京)有限公司 兴趣点知识图谱构建方法、装置、电子设备及存储介质
CN112000495B (zh) * 2020-10-27 2021-02-12 博泰车联网(南京)有限公司 用于兴趣点信息管理的方法、电子设备和存储介质

Also Published As

Publication number Publication date
US20230376691A1 (en) 2023-11-23
CN112000495A (zh) 2020-11-27
CN112000495B (zh) 2021-02-12
WO2022089474A1 (zh) 2022-05-05

Similar Documents

Publication Publication Date Title
CN109145219B (zh) 基于互联网文本挖掘的兴趣点有效性判断方法和装置
US10795939B2 (en) Query method and apparatus
US10789078B2 (en) Method and system for inputting information
US8898583B2 (en) Systems and methods for providing information regarding semantic entities included in a page of content
US9367588B2 (en) Method and system for assessing relevant properties of work contexts for use by information services
US9405857B2 (en) Speculative search result on a not-yet-submitted search query
WO2017024884A1 (zh) 一种搜索意图识别方法及装置
US8639687B2 (en) User-customized content providing device, method and recorded medium
CN103064956A (zh) 用于搜索电子内容的方法、计算系统和计算机可读介质
US20140006408A1 (en) Identifying points of interest via social media
CN114817351A (zh) 促进图像在搜索查询中的使用
CN107783976B (zh) 用户信息挖掘方法及装置
JP2015525929A (ja) 検索品質を改善するための重みベースのステミング
CN108701292A (zh) 基于工作变更指示来提供推荐
US20220121668A1 (en) Method for recommending document, electronic device and storage medium
CN111324771A (zh) 视频标签的确定方法、装置、电子设备及存储介质
US20160299951A1 (en) Processing a search query and retrieving targeted records from a networked database system
CN112988784B (zh) 数据查询方法、查询语句生成方法及其装置
JP2018504686A (ja) 検索データを処理するための方法及び装置
CN111160007B (zh) 基于bert语言模型的搜索方法、装置、计算机设备及存储介质
CN113836316B (zh) 三元组数据的处理方法、训练方法、装置、设备及介质
JP7172187B2 (ja) 情報表示方法、情報表示プログラムおよび情報表示装置
CN116508004A (zh) 用于兴趣点信息管理的方法、电子设备和存储介质
JP5196569B2 (ja) コンテンツ検索装置、コンテンツ検索方法及びプログラム
Tabarcea et al. Framework for location-aware search engine

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination