CN112000495B - 用于兴趣点信息管理的方法、电子设备和存储介质 - Google Patents
用于兴趣点信息管理的方法、电子设备和存储介质 Download PDFInfo
- Publication number
- CN112000495B CN112000495B CN202011161539.7A CN202011161539A CN112000495B CN 112000495 B CN112000495 B CN 112000495B CN 202011161539 A CN202011161539 A CN 202011161539A CN 112000495 B CN112000495 B CN 112000495B
- Authority
- CN
- China
- Prior art keywords
- point
- interest
- information
- item
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000003860 storage Methods 0.000 title claims abstract description 21
- 230000011218 segmentation Effects 0.000 claims description 20
- 238000013145 classification model Methods 0.000 claims description 7
- 238000003058 natural language processing Methods 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 2
- 238000012163 sequencing technique Methods 0.000 claims 1
- 239000000126 substance Substances 0.000 claims 1
- 230000010365 information processing Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 27
- 238000012549 training Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 11
- 238000012545 processing Methods 0.000 description 11
- 238000004590 computer program Methods 0.000 description 10
- 238000007726 management method Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 7
- 238000000605 extraction Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 235000013305 food Nutrition 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 235000015219 food category Nutrition 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 239000000835 fiber Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/54—Interprogram communication
- G06F9/543—User-generated data transfer, e.g. clipboards, dynamic data exchange [DDE], object linking and embedding [OLE]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
- G06F16/90332—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9558—Details of hyperlinks; Management of linked annotations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本公开的实施例涉及用于兴趣点信息管理的方法、设备和存储介质,涉及信息处理领域。根据该方法,从剪贴板获取网页链接;获取与网页链接相关联的网页文本;从兴趣点信息库获取与网页文本相匹配的至少一项兴趣点信息;以及呈现至少一项兴趣点信息。由此,能够从复制的网页链接提取兴趣点信息并进行呈现,以便于后续统一收藏。
Description
技术领域
本公开的实施例总体涉及信息处理领域,具体涉及用于兴趣点信息管理的方法、电子设备和计算机存储介质。
背景技术
用户经常在各种应用或者网站阅读诸如美食、旅游等的文章。文章中会提及景点名称、饭店地址等兴趣点。传统上,用户可以在这些应用或网站收藏包含喜欢兴趣点的文章,以便后续查找或进行出行规划。但是由于这些应用或网站众多且分散,这些文章也往往分散,查找这些兴趣点非常不便。此外,就算找回一篇文章,往往也需要重头阅读,找出这些兴趣点,比较费力。
发明内容
提供了一种用于兴趣点信息管理的方法、电子设备以及计算机存储介质,能够从复制的网页链接提取兴趣点信息并呈现,以便于统一收藏。
根据本公开的第一方面,提供了一种用于兴趣点信息管理的方法。该方法包括:从剪贴板获取网页链接;获取与网页链接相关联的网页文本;从兴趣点信息库获取与网页文本相匹配的至少一项兴趣点信息;以及呈现至少一项兴趣点信息。
根据本公开的第二方面,提供了一种电子设备。该电子设备包括:至少一个处理器,以及与至少一个处理器通信连接的存储器,其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行根据第一方面所述的方法。
在本公开的第三方面中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现根据本公开的第一方面的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标注表示相同或相似的元素。
图1是根据本公开的实施例的信息处理环境100的示意图。
图2是根据本公开的实施例的用于兴趣点信息管理的方法200的示意图。
图3示出了根据本公开的实施例的用于获取至少一项兴趣点信息140的方法300的流程图。
图4示出了根据本公开的实施例的用于确定网页文本的内容类别的方法400的流程图。
图5示出了根据本公开的实施例的用于确定与网页文本相匹配的至少一个兴趣点标识的方法500的流程图。
图6示出了根据本公开的实施例的用于获取与至少一个词语相匹配的至少一项兴趣点信息的方法600的流程图。
图7是根据本公开的实施例的实体提取模型700的框图。
图8是根据本公开的实施例的第一呈现界面800的示意图。
图9是根据本公开的实施例的第二呈现界面900的示意图。
图10是用来实现本公开实施例的用于兴趣点信息管理的方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
如上所述,传统收藏的兴趣点文章分散在各个应用或网站,后续查找不方便,并且找到文章之后仍然需要人工确定兴趣点,比较费时费力。
为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个,本公开的示例实施例提出了一种用于兴趣点信息管理的方案。在该方案中,从剪贴板获取网页链接;获取与网页链接相关联的网页文本;从兴趣点信息库获取与网页文本相匹配的至少一项兴趣点信息;以及呈现至少一项兴趣点信息。以此方式,能够从复制的网页链接提取兴趣点信息并呈现,以便于统一收藏。
在下文中,将结合附图更详细地描述本方案的具体示例。
图1示出了根据本公开的实施例的信息处理环境100的示例的示意图。信息处理环境100可以包括计算设备110、剪贴板120、网页链接130、至少一项兴趣点信息140以及兴趣点信息库150。应当理解,虽然图1中示出了3项兴趣点信息140-1、140-2以及140-3,但是这只是示例,兴趣点信息的数量可以更多或更少,本公开的范围在此不受限制。
计算设备110例如包括但不限于智能手机、个人计算机、台式计算机、膝上型计算机、平板计算机、个人数字助理等。
计算设备110的操作系统可以实现有剪贴板120,其可用于在多个应用之间传递数据,例如网页链接。例如,计算设备110中的第一应用可呈现网页链接130,在接收到用户的复制链接指令时,可以将该网页链接复制到剪贴板120,随后第二应用可以从剪贴板120获取该网页链接130。
兴趣点信息库150可以位于远端服务器,其与计算设备110之间可以通信连接。兴趣点信息库150可以存储有多项兴趣点信息,兴趣点信息例如可以包括兴趣点标识、兴趣点位置或地址、兴趣点描述以及相关图片等等。计算设备110可以通过搜索引擎搜索兴趣点信息库150,例如通过兴趣点标识或兴趣点位置进行搜索,从兴趣点信息库150获取相匹配的兴趣点信息。
计算设备110用于从剪贴板120获取网页链接130;获取与网页链接130相关联的网页文本;从兴趣点信息库150获取与网页文本相匹配的至少一项兴趣点信息140;以及呈现至少一项兴趣点信息140。
由此,能够从复制的网页链接提取兴趣点信息进行呈现,以便于用户统一收藏。
图2示出了根据本公开的实施例的用于兴趣点信息管理的方法200的流程图。例如,方法200可以由如图1所示的计算设备110来执行。应当理解的是,方法200还可以包括未示出的附加框和/或可以省略所示出的框,本公开的范围在此方面不受限制。
在框202处,计算设备110从剪贴板120获取网页链接130。剪贴板120中的网页链接130例如是用户从某一应用或网站复制到剪贴板120。
在框204处,计算设备110获取与网页链接130相关联的网页文本。例如,计算设备110可以获取与网页链接130相关联的网页数据,随后计算设备110可以解析网页数据,从中获取网页文本。在一些实施例中,获取的网页文本为网页中文文本。
在框206处,计算设备110从兴趣点信息库150获取与网页文本相匹配的至少一项兴趣点信息140。例如可以从网页文本获取关键词,基于从兴趣点信息库150获取与关键词相匹配的至少一项兴趣点信息140。下文将详细描述用于获取至少一项兴趣点信息140的方法。
在框208处,计算设备110呈现至少一项兴趣点信息140。例如,可以通过列表形式呈现至少一项兴趣点信息140。
由此,能够从复制的网页链接提取兴趣点信息并呈现,以便于用户统一收藏,支持一站式兴趣点信息管理,无需在各个应用或网站查找相关文章并进行人工提取兴趣点,提高了效率。
图3示出了根据本公开的实施例的用于获取至少一项兴趣点信息140的方法300的流程图。例如,方法300可以由如图1所示的计算设备110来执行。应当理解的是,方法300还可以包括未示出的附加框和/或可以省略所示出的框,本公开的范围在此方面不受限制。
在框302处,计算设备110确定网页文本的内容类别。
在一些实施例中,计算设备110可以从网页文本获取与词语库相匹配的词语集合。词语库例如为基于从训练文本集提取的高频词语而生成的。高频词语可以理解为在训练文本集中出现次数为前n位的词语。随后,计算设备110可以将词语集合输入文本分类模型,以得到网页文本的内容类别。文本分类模型例如包括但不限于textCNN。内容类别可以包括第一内容类别和第二内容类别。第一内容类别例如包括但不限于美食类,以及第二内容类别例如包括但不限于景点类。
例如,可以统计训练文本集中的词语的出现次数,将出现次数排在前n位的词语组成词语库。对训练文本集可以标注内容类别标签,例如第一内容类别或第二内容类别,得到标签集。在训练过程中,可以从训练文本中获取与词语库匹配的词语集合,随后基于词语集合生成特征矩阵,将特征矩阵输入文本分类模型(例如textCNN)进行训练,将所得到的结果与该训练文本所关联标签所转化的目标矩阵进行对比,计算损失值进行梯度下降。损失函数例如可以使用交叉熵,激活函数可以使用ReLU。通过测试集对模型进行测试,保存训练效果最好的模型用于预测。
在框304处,计算设备110确定内容类别是否为第一内容类别。第一内容类别例如包括美食类别。
如果计算设备110在框304处确定内容类别为第一内容类别,则在框306处,计算设备110基于地址匹配规则,从网页文本获取地址信息集合。地址信息集合例如可以包括一项或多项地址信息,地址信息例如为地址字符串。
在一些实施例中,计算设备110可以基于正则表达式,从网页文本获取有效文本信息。正则表达式例如包括但不限于([0-9a-zA-Z]*[\u4e00-\u9fa5]+[0-9a-zA-Z]*)+(\\([\u4e00-\u9fa5]+\\))*。有效文本信息例如包括数字、字母和/或中文词语等信息。
随后,计算设备110可以基于地址匹配规则,从有效文本信息获取地址信息集合。地址匹配规则例如包括但不限于“**路**号/弄/街道/大厦/商场”。获取的地址信息集合中的地址信息例如为“天钥桥路30号”、“复兴中路10号”等等。
由此,能够先按照正则表达式提取有效文本信息,并基于地址匹配规则从有效文本信息中获得地址信息,避免无效文本信息对地址信息提取的干扰,提高地址信息提取的效率和准确性。
在框308处,计算设备110从兴趣点信息库150获取与地址信息集合相匹配的多项兴趣点信息,多项兴趣点信息包括多个兴趣点标识。一项兴趣点信息例如可以包括兴趣点标识、兴趣点地址、兴趣点坐标、兴趣点类型和/或兴趣点图片等。与地址信息集合相匹配的兴趣点信息指的是其兴趣点地址与地址信息集合中的任一地址信息相匹配的兴趣点信息。
兴趣点信息库150可以位于远端服务器。计算设备110可以对于地址信息集合中的每个地址信息向该远端服务器发送搜索请求,该搜索请求包括该地址信息。随后,该远端服务器基于接收到的地址信息搜索兴趣点信息库150,确定与地址信息相匹配的多个兴趣点地址,以及获取与多个兴趣点地址相关联的多项兴趣点信息,并返回给计算设备110。
在框310处,计算设备110基于自然语言处理模型,从多个兴趣点标识中确定与网页文本相匹配的至少一个兴趣点标识。下文将结合图5详细说明用于确定与网页文本相匹配的至少一个兴趣点标识的方法。
在框312处,计算设备110从多项兴趣点信息获取与至少一个兴趣点标识相关联的至少一项兴趣点信息140。
回到框304,如果在框304处确定内容类别为第二内容类别,则在框314处,计算设备110基于实体识别模型,从网页文本确定被标注为预定标签的至少一个词语。第二内容类别例如包括景点类别。例如,计算设备110可以基于实体识别模型对网页文本中的至少一个词语标注预定标签,随后获取被标注为预定标签的至少一个词语。
实体识别模型例如可以采用双向长短记忆网络(BiLSTM)加上条件随机场(CRF)的结构。例如,如图7所示,将网页文本中的字符串(例如,“西湖真漂亮”)转换成词向量w0-w4,然后将词向量w0-w4输入BiLSTM,得到每个词对应各个类别或标签(例如B-PER、B-ORG、I-ORG、I-PER、O、B-SPT(自定义景点类别或标签)等等)的分数。如w0,BiLSTM节点的输出是1.5(B-Person), 0.9 (I-Person), 0.1 (B-Organization), 0.08 (I-Organization) and0.05 (O)。这些分数将会是CRF层的输入。使用CRF损失函数,避免标注偏置,优化目标为让真实序列的概率最大化。采用维特比算法可以快速获得全局最优序列。最终输出字符串对应的标签序列,例如{B-PER,I-PER,O,B-ORG,O}。应当理解,上述说明只是举例,本公开的范围在此不受限制。
预定标签例如包括但不限于景点标签。例如,可以将训练文本中的景点名称(例如,西湖、灵隐寺等等)标注为景点标签,并按照BIOES标准对训练文本中的字进行标签标注,可以得到数据集,其包括训练集和测试集。可以对训练文本进行预处理,例如特殊符号去除,错误标注删除等等。随后,可以分批次按照训练集对模型进行训练,每次迭代用测试集进行评估,保存最佳模型。保存的实体识别模块可以对输入的网页文本中的至少一个词语标注预定标签。
在一些实施例中,计算设备110还可以将网页文本与景点实体库进行全字符匹配,以得到匹配词语,以及将匹配词语添加到上述至少一个词语中。
在框316处,计算设备110从兴趣点信息库150获取与至少一个词语相匹配的至少一项兴趣点信息140。与至少一个词语相匹配的至少一项兴趣点信息指的是其兴趣点标识与至少一个词语相匹配的至少一项兴趣点信息。
由此,由于美食餐厅的名称变化多端,可能包括字母、数字和/或中文,并且餐厅变化频繁,可能文章中介绍的餐厅已经停业,而且餐厅数量巨大,无法通过大数据的打标来训练算法,并且需要频繁更新模型,重新训练,因此通过地址匹配加上分词的方法适合从美食类文章获取诸如美食餐厅的兴趣点信息。而景点类的数据相对稳定,数量也可以估计,名称相对简单,可以通过训练模型的方式实现更加智能的兴趣点信息提取。可见,通过先确定网页文本的内容类别,并在内容类别是美食类时通过地址匹配加分词来提取兴趣点信息,而在内容类别是景点类时通过实体识别来提取兴趣点信息,综合了两个类别的优势,使得兴趣点提取效率更高。
图4示出了根据本公开的实施例的用于确定网页文本的内容类别的方法400的流程图。例如,方法400可以由如图1所示的计算设备110来执行。应当理解的是,方法400还可以包括未示出的附加框和/或可以省略所示出的框,本公开的范围在此方面不受限制。
在框402处,计算设备110在网页文本中确定与第一内容类别相关联的第一词语的第一频次以及与第二内容类别相关联的第二词语的第二频次。第一词语例如包括但不限于“吃”、“餐”“美食”等,第二词语例如包括但不限于“景”等。
在一些实施例中,计算设备110可以从网页文本获取标题信息,以及确定标题信息中与第一内容类别相关联的第一词语的第一频次以及与第二内容类别相关联的第二词语的第二频次。
在另一些实施例中,计算设备110可以在网页文本的标题信息和正文信息中确定与第一内容类别相关联的第一词语的第一频次以及与第二内容类别相关联的第二词语的第二频次。
在框404处,计算设备110确定第一频次是否等于第二频次。
如果在框404处计算设备110确定第一频次等于第二频次,则在框406处,计算设备110从网页文本获取与词语库匹配的词语集合。
在框408处,计算设备110将词语集合输入文本分类模型,以得到网页文本的内容类别。基于文本分类模型确定内容类别的过程可参见上文,这里不再赘述。
如果在框404处计算设备110确定第一频次不等于第二频次,则在框410处确定第一频次是否大于第二频次。
如果在框410处计算设备110确定第一频次大于第二频次,则在框412处确定内容类别为第一内容类别。
应当理解,虽然这里描述的顺序是先判断第一频次是否等于第二频次,再判断第一频次是否大于第二频次,但是这只是举例说明,也可再判断第一频次是否小于第二频次,或者先判断第一频次是否大于第二频次,再判断第一频次是否小于第二频次,或者反之亦然。
如果在框410处计算设备110确定第一频次小于第二频次,则在框414处,确定内容类别为第二内容类别。
由此,能够先基于网页文本中与内容类别相关联的词语的出现频次快速确定内容类别,在基于频次不容易确定内容类别的情况下再基于文本分类模型确定内容类别,从而提高内容类别的确定效率。此外,通过在网页文本的标题信息中确定上述频次,可以更快确定内容类别。
图5示出了根据本公开的实施例的用于确定与网页文本相匹配的至少一个兴趣点标识的方法500的流程图。例如,方法500可以由如图1所示的计算设备110来执行。应当理解的是,方法500还可以包括未示出的附加框和/或可以省略所示出的框,本公开的范围在此方面不受限制。
在框502处,计算设备110基于多个兴趣点标识,生成词典。
在框504处,计算设备110基于自然语言处理模型和词典,对网页文本进行分词,以得到分词结果。分词结果可以包括多个分词。
自然语言处理模型例如包括但不限于正向最大名称匹配或者逆向最长匹配的中文分词算法。以正向最大名称匹配为例,假定词典中的最长词有i个汉字字符串,则将网页文本的当前字符串中的前i个字作为待匹配字段,查找字典。若此时词典中存在这样一个字符串,则匹配成功,此时被匹配的字段切分出来,作为一个分词。如果匹配失败,将待匹配字段中的最后一个字去掉,对剩下的字符串重新与词典进行匹配,如此下去直到匹配成功,也即是切分出一个词或剩余字串的长度为零为止,这个时候才是匹配了一轮,接着进行下一个i字字符串的匹配,方法同上,直到网页文本被扫描完为止,得到分词结果。逆向最长匹配算法与之类似,只是方向相反,不再赘述。
在框506处,计算设备110在词典中确定与分词结果相匹配的至少一个兴趣点标识。例如,将分词结果中的多个分词逐一查询字典,确定匹配的至少一个兴趣点标识。
由此,能够通过与文本中的地址信息相匹配的兴趣点标识作为词典来对文本进行分词,并根据分词结果匹配兴趣点标识,能够结合地址和分词更加准确地确定文本中出现的兴趣点标识。
备选地或者附加地,在一些实施例中,计算设备110还可以确定至少一个兴趣点标识在分词结果中的至少一个频次。例如,将分词结果中的多个分词逐一与至少一个兴趣点标识进行匹配,确定其频次。随后,计算设备110可以按照至少一个频次,对至少一项兴趣点标识进行排序。例如按照出现次数从高到低排序。
由此,能够基于兴趣点标识在分词结果中的频次对兴趣点标识进行排序,使得呈现的兴趣点信息是按照频次进行排序的。
备选地或者附加地,在一些实施例中,计算设备110还可以从经排序的至少一项兴趣点标识中删除在分词结果中的频次低于预定频次的兴趣点标识。
由此,能够使得得到的兴趣点标识为在分词结果中出现频次较高的兴趣点标识,使得兴趣点标识更符合需求,提高用户体验。
图6示出了根据本公开的实施例的用于获取与至少一个词语相匹配的至少一项兴趣点信息的方法600的流程图。例如,方法600可以由如图1所示的计算设备110来执行。应当理解的是,方法600还可以包括未示出的附加框和/或可以省略所示出的框,本公开的范围在此方面不受限制。
在框602处,计算设备110基于实体识别模型,从网页文本确定被标注为位置标签的多个区域标识。区域标识例如包括但不限于城市标识,例如上海、北京、杭州等地。例如,除了上文提及的景点标签之外,还可以将训练文本中的区域标识(例如,北京、上海等等)标注为位置标签,并按照BIOES标准对训练文本中的字进行标签标注,可以得到数据集,其包括训练集和测试集。具体模型及训练可参见上文,不再赘述。
在框604处,计算设备110从多个区域标识确定在网页文本中频次最高的第一区域标识。例如,网页文本中提到了1次杭州,3次上海,10次北京,则可以确定频次最高为北京。
在框606处,计算设备110从兴趣点信息库150获取位于第一区域标识相关联的区域内并且与至少一个词语相匹配的至少一项兴趣点信息。上文确定的至少一个词语涉及人民公园,则第一区域标识为北京,则从兴趣点信息库150获取位于北京市的人民公园的相关兴趣点信息。
由此,通过进一步从网页文本识别区域标识并根据频次最高的区域标识来限定兴趣点匹配的区域,使得匹配出的兴趣点信息更准确。
备选地或者附加地,在一些实施例中,计算设备110还可以获取与网页链接相关联的图片。
随后,计算设备110基于文字识别模型,从图片获取文字信息。例如,计算设备110可以先基于诸如cnstd的场景文字检测模型,在图片中确定文字位置,接着计算设备110从图片中获取文字位置处的图片部分,随后计算设备110基于诸如cnocr的光学文字识别模型,从该图片部分获取文字信息。
接着,计算设备110从兴趣点信息库150获取与文字信息相匹配的第一兴趣点位置。在一些实施例中,计算设备110也可以获取图片的属性中的位置信息作为第一兴趣点位置。这里的位置信息例如包括但不限于经纬度信息。
计算设备110可以基于至少一项兴趣点信息中的至少一项兴趣点位置与第一兴趣点位置之间的距离,确定与至少一项兴趣点信息相关联的至少一个第一可信度评分。例如,对于与第一兴趣点位置之间的距离超过预定距离的兴趣点信息,其第一可信度评分可以为第一数值,例如30,对于与第一兴趣点位置之间的距离不超过预定距离的兴趣点信息,其第一可信度评分可以为大于第一数值的第二数值,例如60。
计算设备110还可以从预定服务器获取与至少一项兴趣点信息相关联的至少一项用户评价数据。预定服务器例如包括但不限于美食、景点点评类网站服务器。用户评价数据例如包括但不限于用户评价热度、评分等。
计算设备110基于至少一项用户评价数据,确定与至少一项兴趣点信息相关联的至少一个第二可信度评分。例如,可以将用户评分进行平均后乘以热度系数,得到第二可信度评分。低热度对应的热度系数也低,高热度对应的热度系数也高。热度例如可以分为3级别,热度1-3,热度1对应的热度系数例如为50%,热度2对应的热度系数例如为75%,热度3对应的热度系数例如为100%。
计算设备110接着基于至少一个第一可信度评分和至少一个第二可信度评分,确定与至少一项兴趣点信息相关联的至少一个最终可信度评分。例如,可以将第一可信度评分和第二可信度评分进行加权相加后得到最终可信度评分。第一可信度评分的加权系数例如为60%,第二可信度评分的加权系数例如为40%。
计算设备110最终呈现至少一个最终可信度评分。在一些实施例中,计算设备110可以基于至少一个最终可信度评分对至少一项兴趣点信息进行排序,得到排序结果,以及呈现排序结果。
由此,能够结合网页链接中的图片相关的位置信息和兴趣点的用户点评数据等多维度来确定兴趣点信息的可信度评分,向用户给出可信评估。此外,还可以按照可信度评分来对兴趣点信息排序后呈现,使得更可信的兴趣点信息排序更加靠前。
备选地或者附加地,在一些实施例中,如图8所示,计算设备110还可以呈现与至少一项兴趣点信息相关联的至少一个可选择图标。应当理解,虽然图8中示出的可选择图标的形状为星型,但是这只是为了举例说明,可选择图标的形状可以为任何合适的其他形状,例如包括但不限于圆形、方形等等。
计算设备110如果确定检测到针对至少一个可选择图标中的第一可选择图标801的选择操作,则将与第一可选择图标801相关联的第一兴趣点信息802添加到兴趣点收藏列表。应当理解,这里第一可选择图标和第一兴趣点信息可以为一个或多个。兴趣点收藏列表可以是先前建立的,也可以是基于该网页链接新建的。兴趣点收藏列表可以存储到计算设备110本地或者发送到服务器保存,以便于后续访问该兴趣点收藏列表。
由此,能够根据用户操作将选择的兴趣点信息收藏,以便后续访问。
备选地或者附加地,在一些实施例中,计算设备110还可以确定是否检测到针对至少一项兴趣点信息中的第一兴趣点信息的预定操作。预定操作例如包括但不限于点击、双击、长按等等。
如果计算设备110确定检测到针对第一兴趣点信息的选择操作,则可以如图9所示,呈现从当前位置到第一兴趣点信息中指示的地址的路线901和第一可操作图标902。如图9所示,第一可操作图标902还可以指示关于预设目标行程的说明。应当理解,虽然图9中显示的第一可操作图标902为按钮形状,但是这只是举例,第一可操作图标的形状也可以是其他合适的形状。在一些实施例中,如果计算设备110确定检测到针对第一兴趣点信息的选择操作,则还可以呈现第一兴趣点信息中包括的图片。
计算设备110还可以确定是否检测到针对第一可操作图标902的预定操作。预定操作可参见上文,这里不再赘述。
如果计算设备110确定检测到针对第一可操作图标902的预定操作,则可以将路线设置为目标行程。
由此,能够在选择第一兴趣点信息之后,呈现到第一兴趣点信息所指示地址的路线,并且根据用户操作设置为目标行程,无需用户针对兴趣点进行路线搜索,提高用户体验。
图10示出了可以用来实施本公开内容的实施例的示例设备1000的示意性框图。例如,如图1所示的计算设备110可以由设备1000来实施。如图所示,设备1000包括中央处理单元(CPU)1001,其可以根据存储在只读存储器(ROM)1002中的计算机程序指令或者从存储单元1008加载到随机存取存储器(RAM)1003中的计算机程序指令,来执行各种适当的动作和处理。在RAM 1003中,还可存储设备1000操作所需的各种程序和数据。CPU 1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。
设备1000中的多个部件连接至I/O接口1005,包括:输入单元1006,例如键盘、鼠标、麦克风等;输出单元1007,例如各种类型的显示器、扬声器等;存储单元1008,例如磁盘、光盘等;以及通信单元1009,例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
上文所描述的各个过程和处理,例如方法200-600,可由中央处理单元1001执行。例如,在一些实施例中,方法200-600可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1008。在一些实施例中,计算机程序的部分或者全部可以经由ROM1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序被加载到RAM1003并由CPU 1001执行时,可以执行上文描述的方法200-600的一个或多个动作。
本公开涉及方法、装置、系统、电子设备、计算机可读存储介质和/或计算机程序产品。计算机程序产品可以包括用于执行本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (13)
1.一种用于兴趣点信息管理的方法,包括以下步骤:
从剪贴板获取网页链接;
获取与所述网页链接相关联的网页文本;
从兴趣点信息库获取与所述网页文本相匹配的至少一项兴趣点信息;
呈现所述至少一项兴趣点信息;
如果确定检测到针对所述至少一项兴趣点信息中的第一兴趣点信息的预定操作,则呈现从当前位置到所述第一兴趣点信息中指示的地址的路线和第一可操作图标;以及
如果确定检测到针对所述第一可操作图标的所述预定操作,则将所述路线设置为目标行程,
其中获取所述至少一项兴趣点信息包括以下步骤:
确定所述网页文本的内容类别;以及
如果确定所述内容类别为第二内容类别,则:
基于实体识别模型,从所述网页文本确定被标注为预定标签的至少一个词语;以及
从所述兴趣点信息库获取与所述至少一个词语相匹配的至少一项兴趣点信息。
2.根据权利要求1所述的方法,其中获取所述至少一项兴趣点信息还包括以下步骤:
如果确定所述内容类别为第一内容类别,则:
基于地址匹配规则,从所述网页文本获取地址信息集合;
从兴趣点信息库获取与所述地址信息集合相匹配的多项兴趣点信息,所述多项兴趣点信息包括多个兴趣点标识;
基于自然语言处理模型,从所述多个兴趣点标识中确定与所述网页文本相匹配的至少一个兴趣点标识;以及
从所述多项兴趣点信息获取与所述至少一个兴趣点标识相关联的至少一项兴趣点信息。
3.根据权利要求1所述的方法,其中确定所述网页文本的所述内容类别包括以下步骤:
在所述网页文本中确定与第一内容类别相关联的第一词语的第一频次以及与第二内容类别相关联的第二词语的第二频次;
如果确定所述第一频次大于所述第二频次,则确定所述内容类别为所述第一内容类别;
如果确定所述第一频次小于所述第二频次,则确定所述内容类别为所述第二内容类别;以及
如果确定所述第一频次等于所述第二频次,则:
从所述网页文本获取与词语库匹配的词语集合;以及
将所述词语集合输入文本分类模型,以得到所述网页文本的所述内容类别。
4.根据权利要求3所述的方法,其中确定所述第一频次和所述第二频次包括以下步骤:
从所述网页文本获取标题信息;以及
确定所述标题信息中与所述第一内容类别相关联的所述第一词语的所述第一频次以及与所述第二内容类别相关联的所述第二词语的所述第二频次。
5.根据权利要求2所述的方法,其中确定与所述网页文本相匹配的所述至少一个兴趣点标识包括以下步骤:
基于所述多个兴趣点标识,生成词典;
基于所述自然语言处理模型和所述词典,对所述网页文本进行分词,以得到分词结果;以及
在所述词典中确定与所述分词结果相匹配的所述至少一个兴趣点标识。
6.根据权利要求5所述的方法,其中确定与所述网页文本相匹配的所述至少一个兴趣点标识还包括以下步骤:
确定所述至少一个兴趣点标识在所述分词结果中的至少一个频次;以及
按照所述至少一个频次,对所述至少一项兴趣点标识进行排序。
7.根据权利要求6所述的方法,其中确定与所述网页文本相匹配的所述至少一个兴趣点标识还包括以下步骤:
从经排序的所述至少一项兴趣点标识中删除在所述分词结果中的频次低于预定频次的兴趣点标识。
8.根据权利要求1所述的方法,其中获取与所述至少一个词语相匹配的所述至少一项兴趣点信息包括以下步骤:
基于实体识别模型,从所述网页文本确定被标注为位置标签的多个区域标识;
从所述多个区域标识确定在所述网页文本中频次最高的第一区域标识;以及
从所述兴趣点信息库获取位于所述第一区域标识相关联的区域内并且与所述至少一个词语相匹配的至少一项兴趣点信息。
9.根据权利要求1所述的方法,还包括以下步骤:
获取与所述网页链接相关联的图片;
基于文字识别模型,从所述图片获取文字信息;
从所述兴趣点信息库获取与所述文字信息相匹配的第一兴趣点位置;
基于所述至少一项兴趣点信息中的至少一项兴趣点位置与所述第一兴趣点位置之间的距离,确定与所述至少一项兴趣点信息相关联的至少一个第一可信度评分;
从预定服务器获取与所述至少一项兴趣点信息相关联的至少一项用户评价数据;
基于所述至少一项用户评价数据,确定与所述至少一项兴趣点信息相关联的至少一个第二可信度评分;
基于所述至少一个第一可信度评分和所述至少一个第二可信度评分,确定与所述至少一项兴趣点信息相关联的至少一个最终可信度评分;以及
呈现所述至少一个最终可信度评分。
10.根据权利要求9所述的方法,其中呈现所述至少一项兴趣点信息包括:
基于所述至少一个最终可信度评分,对所述至少一项兴趣点信息进行排序,以得到排序结果;以及
呈现所述排序结果。
11.根据权利要求1所述的方法,还包括以下步骤:
呈现与所述至少一项兴趣点信息相关联的至少一个可选择图标;以及
如果确定检测到针对所述至少一个可选择图标中的第一可选择图标的选择操作,则将与所述第一可选择图标相关联的第一兴趣点信息添加到兴趣点收藏列表。
12.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-11中任一项所述的方法。
13.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-11中任一项所述的方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011161539.7A CN112000495B (zh) | 2020-10-27 | 2020-10-27 | 用于兴趣点信息管理的方法、电子设备和存储介质 |
CN202180071783.0A CN116508004A (zh) | 2020-10-27 | 2021-10-27 | 用于兴趣点信息管理的方法、电子设备和存储介质 |
US18/031,461 US20230376691A1 (en) | 2020-10-27 | 2021-10-27 | Method for point-of-interest information management, electronic device, and storage medium |
PCT/CN2021/126663 WO2022089474A1 (zh) | 2020-10-27 | 2021-10-27 | 用于兴趣点信息管理的方法、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011161539.7A CN112000495B (zh) | 2020-10-27 | 2020-10-27 | 用于兴趣点信息管理的方法、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112000495A CN112000495A (zh) | 2020-11-27 |
CN112000495B true CN112000495B (zh) | 2021-02-12 |
Family
ID=73474431
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011161539.7A Active CN112000495B (zh) | 2020-10-27 | 2020-10-27 | 用于兴趣点信息管理的方法、电子设备和存储介质 |
CN202180071783.0A Pending CN116508004A (zh) | 2020-10-27 | 2021-10-27 | 用于兴趣点信息管理的方法、电子设备和存储介质 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180071783.0A Pending CN116508004A (zh) | 2020-10-27 | 2021-10-27 | 用于兴趣点信息管理的方法、电子设备和存储介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230376691A1 (zh) |
CN (2) | CN112000495B (zh) |
WO (1) | WO2022089474A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112000495B (zh) * | 2020-10-27 | 2021-02-12 | 博泰车联网(南京)有限公司 | 用于兴趣点信息管理的方法、电子设备和存储介质 |
US20220392434A1 (en) * | 2021-06-08 | 2022-12-08 | Microsoft Technology Licensing, Llc | Reducing biases of generative language models |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20080013578A (ko) * | 2006-08-09 | 2008-02-13 | 에스케이 텔레콤주식회사 | Poi의 유선전화번호를 이용한 모바일 웹페이지 연결방법 및 시스템, 그를 위한 모바일 웹페이지 서버와 그동작 방법 |
CN101750070A (zh) * | 2008-12-01 | 2010-06-23 | 量子数位科技有限公司 | 智能型导航装置及其控制方法 |
CN102436512A (zh) * | 2012-01-17 | 2012-05-02 | 电子科技大学 | 一种基于偏好度的网页文本内容管控方法 |
CN103514234A (zh) * | 2012-06-30 | 2014-01-15 | 北京百度网讯科技有限公司 | 一种页面信息提取方法和装置 |
CN104699835A (zh) * | 2015-03-31 | 2015-06-10 | 北京奇虎科技有限公司 | 用于确定网页页面中包括兴趣点poi数据的方法及装置 |
CN107491450A (zh) * | 2016-06-13 | 2017-12-19 | 北京游谱科技发展有限公司 | 一种基于poi的行程修改方法及系统 |
CN110019201A (zh) * | 2017-10-09 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 一种生成结构化数据的方法、装置及系统 |
CN110609880A (zh) * | 2018-06-15 | 2019-12-24 | 北京搜狗科技发展有限公司 | 一种信息查询方法、装置及电子设备 |
CN110909170A (zh) * | 2019-10-12 | 2020-03-24 | 百度在线网络技术(北京)有限公司 | 兴趣点知识图谱构建方法、装置、电子设备及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8484028B2 (en) * | 2008-10-24 | 2013-07-09 | Fuji Xerox Co., Ltd. | Systems and methods for document navigation with a text-to-speech engine |
CN102841920B (zh) * | 2012-06-30 | 2017-05-10 | 北京百度网讯科技有限公司 | 一种页面信息提取方法及装置 |
CN103984771B (zh) * | 2014-06-04 | 2017-02-15 | 武汉大学 | 一种英文微博中地理兴趣点抽取和感知其时间趋势的方法 |
CN110457420B (zh) * | 2019-08-13 | 2024-04-16 | 腾讯云计算(北京)有限责任公司 | 兴趣点位置识别方法、装置、设备及存储介质 |
CN112000495B (zh) * | 2020-10-27 | 2021-02-12 | 博泰车联网(南京)有限公司 | 用于兴趣点信息管理的方法、电子设备和存储介质 |
-
2020
- 2020-10-27 CN CN202011161539.7A patent/CN112000495B/zh active Active
-
2021
- 2021-10-27 CN CN202180071783.0A patent/CN116508004A/zh active Pending
- 2021-10-27 US US18/031,461 patent/US20230376691A1/en active Pending
- 2021-10-27 WO PCT/CN2021/126663 patent/WO2022089474A1/zh active Application Filing
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20080013578A (ko) * | 2006-08-09 | 2008-02-13 | 에스케이 텔레콤주식회사 | Poi의 유선전화번호를 이용한 모바일 웹페이지 연결방법 및 시스템, 그를 위한 모바일 웹페이지 서버와 그동작 방법 |
CN101750070A (zh) * | 2008-12-01 | 2010-06-23 | 量子数位科技有限公司 | 智能型导航装置及其控制方法 |
CN102436512A (zh) * | 2012-01-17 | 2012-05-02 | 电子科技大学 | 一种基于偏好度的网页文本内容管控方法 |
CN103514234A (zh) * | 2012-06-30 | 2014-01-15 | 北京百度网讯科技有限公司 | 一种页面信息提取方法和装置 |
CN104699835A (zh) * | 2015-03-31 | 2015-06-10 | 北京奇虎科技有限公司 | 用于确定网页页面中包括兴趣点poi数据的方法及装置 |
CN107491450A (zh) * | 2016-06-13 | 2017-12-19 | 北京游谱科技发展有限公司 | 一种基于poi的行程修改方法及系统 |
CN110019201A (zh) * | 2017-10-09 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 一种生成结构化数据的方法、装置及系统 |
CN110609880A (zh) * | 2018-06-15 | 2019-12-24 | 北京搜狗科技发展有限公司 | 一种信息查询方法、装置及电子设备 |
CN110909170A (zh) * | 2019-10-12 | 2020-03-24 | 百度在线网络技术(北京)有限公司 | 兴趣点知识图谱构建方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US20230376691A1 (en) | 2023-11-23 |
CN116508004A (zh) | 2023-07-28 |
CN112000495A (zh) | 2020-11-27 |
WO2022089474A1 (zh) | 2022-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109145219B (zh) | 基于互联网文本挖掘的兴趣点有效性判断方法和装置 | |
US20240029464A1 (en) | Method, apparatus, and computer program product for classification of documents | |
CN101918945B (zh) | 用于执行自动扩展的语言搜索的方法和系统 | |
US20170243112A1 (en) | Deep learning approach to identify comparative reference incidents | |
CN108874996B (zh) | 网站分类方法及装置 | |
CN107783976B (zh) | 用户信息挖掘方法及装置 | |
CN106681598B (zh) | 信息输入方法和装置 | |
CN109508361B (zh) | 用于输出信息的方法和装置 | |
CN112000495B (zh) | 用于兴趣点信息管理的方法、电子设备和存储介质 | |
CN112988784B (zh) | 数据查询方法、查询语句生成方法及其装置 | |
US20220121668A1 (en) | Method for recommending document, electronic device and storage medium | |
CN111666292A (zh) | 用于检索地理位置的相似度模型建立方法和装置 | |
CN112380847A (zh) | 兴趣点处理方法、装置、电子设备及存储介质 | |
US9767121B2 (en) | Location-based mobile search | |
CN111666461A (zh) | 检索地理位置的方法、装置、设备和计算机存储介质 | |
JP7172187B2 (ja) | 情報表示方法、情報表示プログラムおよび情報表示装置 | |
CN110737820B (zh) | 用于生成事件信息的方法和装置 | |
CN112148958A (zh) | 用于信息推荐的方法、设备和计算机存储介质 | |
CN107220249B (zh) | 基于分类的全文搜索 | |
CN113515687B (zh) | 物流信息的获取方法和装置 | |
CN114036414A (zh) | 兴趣点的处理方法、装置、电子设备、介质及程序产品 | |
CN113780827A (zh) | 一种物品筛选方法、装置、电子设备及计算机可读介质 | |
KR20210084641A (ko) | 정보를 송신하는 방법 및 장치 | |
CN112100522A (zh) | 用于检索兴趣点的方法、装置、设备及介质 | |
CN114861062B (zh) | 信息过滤方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |