CN110020049A - 域名翻译和查询的方法和装置 - Google Patents
域名翻译和查询的方法和装置 Download PDFInfo
- Publication number
- CN110020049A CN110020049A CN201711031081.1A CN201711031081A CN110020049A CN 110020049 A CN110020049 A CN 110020049A CN 201711031081 A CN201711031081 A CN 201711031081A CN 110020049 A CN110020049 A CN 110020049A
- Authority
- CN
- China
- Prior art keywords
- domain name
- page
- heading message
- word
- translation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L61/00—Network arrangements, protocols or services for addressing or naming
- H04L61/45—Network directories; Name-to-address mapping
- H04L61/4505—Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
- H04L61/4511—Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种域名翻译和查询的方法和装置。其中,该方法包括:爬取目标域名所属的第一页面,获得第一页面的超文本标记语言html信息;提取第一页面的html信息中预设类型的链接,并提取预设类型的链接各自所属的第二页面的标题信息,得到标题集合;对标题集合中的各个标题信息进行分词处理,确认各个标题信息的公共词;对公共词进行合并,得到目标域名的翻译对象。本发明解决了由于人工操作带来的效率低的技术问题。
Description
技术领域
本发明涉及互联网技术应用领域,具体而言,涉及一种域名翻译和查询的方法和装置。
背景技术
域名由于历史等原因,大部分域名都是英文的域名,比如www.sina.com.cn(新浪),而暂时没有一种英文域名与中文名称对应的方式方法。在现有的网页爬取系统中,经常会展示抓取到的新闻网站,如果,直接显示英文域名,这样是不友好的方式。
现有的技术方案主要是人工整理,人工梳理好所有的网站栏目,建立网站及网站栏目字典,网页爬取系统与建立的栏目字典自动匹配。
现有的技术方案会使用大量的人工,出现新的网站就需要人工整理,并且有比较大的延迟。
针对上述由于人工操作带来的效率低的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种域名翻译和查询的方法和装置,以至少解决由于人工操作带来的效率低的技术问题。
根据本发明实施例的一个方面,提供了一种域名翻译的方法,包括:爬取目标域名所属的第一页面,获得第一页面的超文本标记语言html信息;提取第一页面的html信息中预设类型的链接,并提取预设类型的链接各自所属的第二页面的标题信息,得到标题集合;对标题集合中的各个标题信息进行分词处理,确认各个标题信息的公共词;对公共词进行合并,得到目标域名的翻译对象。
可选的,提取第一页面的html信息中预设类型的链接,并提取预设类型的链接各自所属的第二页面的标题信息,得到标题集合包括:提取第一页面的html信息中的标题信息和预设类型的链接,并提取预设类型的链接各自所属的第二页面的标题信息,使用第一页面的标题信息和各个第二页面的标题信息构成标题集合。
可选的,对标题集合中的各个标题信息进行分词处理,确认各个标题信息的公共词包括:依据预设分词条件对标题集合中的各个标题信息进行分词,得到分词后的各个标题信息;对分词后的各个标题信息取交集操作,得到公共词,其中,公共词为在分词后的各个标题信息中所能提取出的连续文本长度最长、文本对应相同的至少一个分词。
可选的,在对公共词进行合并之前,该方法还包括:对公共词进行去重处理。
进一步地,可选的,对公共词进行去重处理包括:对公共词中内容相同的分词执行去重操作,得到去重后的公共词,其中,去重操作为去除相同重复的词的操作;对公共词进行合并,得到目标域名的翻译对象包括:合并去重后的公共词,得到目标域名的翻译对象。
可选的,该方法还包括:将目标域名和目标域名的翻译对象以映射的形式存储至预存域名字典,其中,预存域名字典用于查询域名得到对应的翻译对象。
进一步地,可选的,该方法还包括:查找预存域名字典中是否存在待查询域名的翻译对象;若是,直接返回待查询域名的翻译对象;若否,构造待查询域名的首页地址,并使用首页地址重新在预存域名字典中查找。
根据本发明实施例的一个方面,提供了另一种域名查询的方法,包括:查找预存域名字典中是否存在待查询域名的翻译对象,其中,预存域名字典用于查询域名得到对应的翻译对象;若是,直接返回待查询域名的翻译对象;若否,解析待查询域名,得到待查询域名对应的翻译对象,并将待查询域名和待查询域名的翻译对象存储至预存域名字典。
根据本发明实施例的另一个方面,提供了一种域名翻译的装置,包括:获取模块,用于爬取目标域名所属的第一页面,获得第一页面的超文本标记语言html信息;提取模块,用于提取第一页面的html信息中预设类型的链接,并提取预设类型的链接各自所属的第二页面的标题信息,得到标题集合;分词模块,用于对标题集合中的各个标题信息进行分词处理,确认各个标题信息的公共词;翻译模块,用于对公共词进行合并,得到目标域名的翻译对象。
可选的,提取模块包括:提取单元,用于提取第一页面的html信息中的标题信息和预设类型的链接,并提取预设类型的链接各自所属的第二页面的标题信息,使用第一页面的标题信息和各个第二页面的标题信息构成标题集合。
可选的,分词模块包括:分词单元,用于依据预设分词条件对标题集合中的各个标题信息进行分词,得到分词后的各个标题信息;词语获取单元,用于对分词后的各个标题信息取交集操作,得到公共词,其中,公共词为在分词后的各个标题信息中所能提取出的连续文本长度最长、文本对应相同的至少一个分词。
可选的,该装置还包括:词语处理模块,用于在对公共词进行合并之前,对公共词进行去重处理。
进一步地,可选的,词语处理模块包括:词语处理单元,用于对公共词中内容相同的分词执行去重操作,得到去重后的公共词,其中,去重操作为去除相同重复的词的操作;翻译模块包括:翻译单元,用于合并去重后的公共词,得到目标域名的翻译对象。
可选的,该装置还包括:存储模块,用于将目标域名和目标域名的翻译对象以映射的形式存储至预存域名字典,其中,预存域名字典用于查询域名得到对应的翻译对象。
进一步地,可选的,该装置还包括:查询模块,用于查找预存域名字典中是否存在待查询域名的翻译对象;第一执行模块,用于若是,直接返回待查询域名的翻译对象;第二执行模块,用于若否,构造待查询域名的首页地址,并使用首页地址重新在预存域名字典中查找。
根据本发明实施例的另一个方面,提供了另一种域名查询的装置,包括:查询模块,用于查找预存域名字典中是否存在待查询域名的翻译对象,其中,预存域名字典用于查询域名得到对应的翻译对象;第一执行模块,用于若是,直接返回待查询域名的翻译对象;第二执行模块,用于若否,解析待查询域名,得到待查询域名对应的翻译对象,并将待查询域名和待查询域名的翻译对象存储至预存域名字典。
根据本发明实施例的又一个方面,提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述域名翻译和查询的方法。
根据本发明实施例的又一个方面,提供了一种处理器,其特征在于,处理器用于运行程序,其中,程序运行时执行上述域名翻译和查询的方法。
在本发明实施例中,通过爬取目标域名所属的第一页面,获得第一页面的超文本标记语言html信息;提取第一页面的html信息中预设类型的链接,并提取预设类型的链接各自所属的第二页面的标题信息,得到标题集合;对标题集合中的各个标题信息进行分词处理,确认各个标题信息的公共词;对公共词进行合并,得到目标域名的翻译对象,达到了提升域名翻译的效率的目的,从而实现了系统自动翻译学习域名的技术效果,进而解决了由于人工操作带来的效率低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的域名翻译的方法的流程示意图;
图2是根据本发明实施例的域名查询的方法的流程示意图;
图3是根据本发明实施例的域名翻译的装置的结构示意图;
图4是根据本发明实施例的域名查询的装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
根据本发明实施例,提供了一种域名翻译的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的域名翻译的方法的流程示意图,如图1所示,该方法包括如下步骤:
步骤S102,爬取目标域名所属的第一页面,获得第一页面的超文本标记语言html信息;
步骤S104,提取第一页面的html信息中预设类型的链接,并提取预设类型的链接各自所属的第二页面的标题信息,得到标题集合;
其中,预设类型的链接可以是对应内容页的链接。
当预设类型的链接是对应内容页的链接时,可以对目标域名所属页面的html信息中带有<a></a>标签对且排除掉css、js、图片等的链接进行提取,以使得筛选出来内容页进行后续的标题信息提取;
除了上述通过标签对的方式,还可以通过对链接所属页面的标题长度进行筛选,例如标题大于10个字符的页面认为是内容页;还可以爬取链接所属页面,并根据内容页面的判断规则确定链接是否对应内容页。
需要说明的是,本申请上述示例仅以说明域名翻译的方法,以实现本申请提供的域名翻译的方法为准,具体不做限定。
步骤S106,对标题集合中的各个标题信息进行分词处理,确认各个标题信息的公共词;
步骤S108,对公共词进行合并,得到目标域名的翻译对象。
在本发明实施例中,通过爬取目标域名所属的第一页面,获得第一页面的超文本标记语言html信息;提取第一页面的html信息中预设类型的链接,并提取预设类型的链接各自所属的第二页面的标题信息,得到标题集合;对标题集合中的各个标题信息进行分词处理,确认各个标题信息的公共词;对公共词进行合并,得到目标域名的翻译对象,达到了提升域名翻译的效率的目的,从而实现了系统自动翻译学习域名的技术效果,进而解决了由于人工操作带来的效率低的技术问题。
可选的,步骤S104中提取第一页面的html信息中预设类型的链接,并提取预设类型的链接各自所属的第二页面的标题信息,得到标题集合包括:
Step1,提取第一页面的html信息中的标题信息和预设类型的链接,并提取预设类型的链接各自所属的第二页面的标题信息,使用第一页面的标题信息和各个第二页面的标题信息构成标题集合。
这里在标题集合中增加了第一页面的标题信息参与后续提取公共词,会使提取的公共词更短更准确。
可选的,步骤S106中对标题集合中的各个标题信息进行分词处理,确认各个标题信息的公共词包括:
Step1,依据预设分词条件对标题集合中的各个标题信息进行分词,得到分词后的各个标题信息;
Step2,对分词后的各个标题信息取交集操作,得到公共词,其中,公共词为在分词后的各个标题信息中所能提取出的连续文本长度最长、文本对应相同的至少一个分词。
具体的,预设分词条件包括:将首页中的标题及其他链接的标题进行分词处理,依据各个链接的标题的共同点对标题信息中的标题进行分词,得到分词后的标题;例如,链接1的标题是A通过XXX实现了重大突破;链接2的标题是B在XX领域取得成功;链接3的标题是C在XX竞技中获得优异成绩;通过预设分词条件则可以得到如下结果:
链接1分词后的标题:A|XXX|重大突破;
链接2分词后的标题:B|XXX领域|成功;
链接3分词后的标题:C|XX竞技|优异成绩。
可选的,在步骤S108对公共词进行合并之前,本申请提供的域名翻译的方法还包括:步骤S107,对公共词进行去重处理。
进一步地,可选的,步骤S107中对公共词进行去重处理包括:
Step1,对公共词中内容相同的分词执行去重操作,得到去重后的公共词,其中,去重操作为去除相同重复的词的操作;
具体的,对于公共词中相同的分词,去除位于公共词两端位置的重复词,如果重复词都位于公共词中间则不去除。
步骤S108中对公共词进行合并,得到目标域名的翻译对象包括:
Step1,合并去重后的公共词,得到目标域名的翻译对象。
可选的,本申请提供的域名翻译的方法还包括:
步骤S109,将目标域名和目标域名的翻译对象以映射的形式存储至预存域名字典,其中,预存域名字典用于查询域名得到对应的翻译对象。这里的翻译对象可以是目标域名的域名中文名称。
进一步地,可选的,本申请提供的域名翻译的方法还包括:
步骤S110,查找预存域名字典中是否存在待查询域名的翻译对象;
步骤S111,若是,直接返回待查询域名的翻译对象;
步骤S112,若否,构造待查询域名的首页地址,并使用首页地址重新在预存域名字典中查找。
实施例二
根据本发明实施例,提供了一种域名查询的方法实施例,图2是根据本发明实施例的域名查询的方法的流程示意图,如图2所示,该方法包括如下步骤:
步骤S202,查找预存域名字典中是否存在待查询域名的翻译对象,其中,预存域名字典用于查询域名得到对应的翻译对象;
步骤S204,若是,直接返回待查询域名的翻译对象;
步骤S206,若否,解析待查询域名,得到待查询域名对应的翻译对象,并将待查询域名和待查询域名的翻译对象存储至预存域名字典。
在本发明实施例中,通过查找预存域名字典中是否存在待查询域名的翻译对象,其中,预存域名字典用于查询域名得到对应的翻译对象;若是,直接返回待查询域名的翻译对象;若否,解析待查询域名,得到待查询域名对应的翻译对象,并将待查询域名和待查询域名的翻译对象存储至预存域名字典,达到了提升域名翻译的效率的目的,从而实现了系统自动翻译学习域名的技术效果,进而解决了由于人工操作带来的效率低的技术问题。
综上,结合实施例一和实施例二提供的域名翻译和查询的方法,本实施例提供的域名翻译和查询的方法具体如下:
1、将网页爬取系统中所有的域名进行去重。
在网页爬取系统中,从预先存储的网站中抓取所有的网站内容,将这些网站内容进行去重主要是为了避免重复解析的问题,方便建立后续的域名字典。
2、依次对每个域名进行处理,请求每个域名的首页html信息。
其中,步骤2主要是抓取网站的html信息,方便进行后续的分析。具体使用HttpRequest请求即可实现,各种语言相差不大。
3、提取首页html信息中的所有的内容页链接,并去掉该内容页链接中的css、js、图片等链接。
其中,步骤3主要是为了获取首页中的所有内容页(如新闻)链接。将所属的链接解析出来。使用Xpath等技术进行链接的提取,其他如正则也可以实现。
4、分别爬取解析出来的内容页链接的网页内容。
其中,步骤4主要是为了提取首页中的内容页链接的内容,最终的目的是提取其他内容页页面的标题。同样可以使用HttpRequest即可实现。
5、分别将首页及首页解析出的链接的html信息的标题信息提取出来。
其中,步骤5主要是提取这些内容页页面的链接的标题,提取方式同样可以使用Xpath或正则表达式的方式进行提取。例如:
标题1:人物A大力助推:中国制造正进行一场品质革命|人物A_新浪新闻;
标题2:人物B视察战略支援部队机关(图)|人物B_新浪新闻。
6、分别将首页及其他内容页链接的标题进行分词处理。
将首页中的标题及其他内容页链接的标题进行分词处理,这一步主要是为了找到这些网站标题的共同点,但是如果进行全部匹配的话,肯定是无法匹配出来的,那么,通过将首页和内容页页面标题的文字进行切割成词语的方式,进行匹配。具体的分词方法有很多。可以自行使用,这里可以使用盘古分词。例如:
标题1:人物A/大力/助推/:/中国/制造/正/进行/一/场/品质/革命/|/人物A/_/新浪/新闻
标题2:人物B/视察/战略/支援/部队/机关/(/图/)/|人物B/_/新浪/新闻。
7、将首页标题解析出的词语与其他内容页标题的中文分词提取公共的部分。
其中,步骤7主要是找到所有标题中词语公共的部分。比如:
标题1:_新浪新闻
标题2:_新浪新闻
8、将首页和内容页标题公共部分的位置进行记录,取词语相连的词语作为公共词。
其中,步骤8主要是避免一些相同的不相联词匹配组合到了一起,造成域名中文错误。比如:
标题1:人物B视察战略支援部队机关|人物B_新浪新闻
标题2:人物B提出四大原则助力健康中国建设|人物B|医改|小康_新浪财经_新浪网
由上可知提取出新浪这个需要的域名,避免提取人物B新浪这样的内容。
9、将提取出来的公共词进行去重合并,组成域名中文名称。
本步骤主要是将公共词中重复的词语去重及合并,取得我们需要的正确的中文域名。例如:
标题1:人物B视察战略支援部队机关|人物B_新浪新闻
标题2:人物B提出四大原则助力健康中国建设|人物B|医改|小康_新浪财经_新浪网
如果不使用本步骤的话,那么就会出现人物B人物B新浪新浪这样的解析结果。
10、将该域名和其对应的域名中文名称存储到数据库中建立域名字典,方便后续直接查找。
将得到的域名存储到数据库中,建立一个域名及中文名的字典。以后可以先查找这个字典,可以更快速的进行解析。
11、后续的域名直接到字典中进行查找,如果没有找到,则继续步骤2。
如果有需要解析的域名,则直接查找域名字典进行解析,如果域名字典中不存在,则继续执行步骤2,将结果存储到域名字典中,并返回解析的结果。
查找域名字典时应先进行二级匹配,如:news.sina.com.cn,如果不存在的话,则在进行www.sina.com.cn或sina.com.cn这样顶级域名的匹配。
其中,二级匹配,用于在域名没找到对应的解析的结果后,依据步骤2至10继续进行标题的分词处理、提取公共部分及查询操作。
实施例三
根据本发明实施例,提供了一种域名翻译的装置实施例,图3是根据本发明实施例的域名翻译的装置的结构示意图,如图3所示,该装置包括:
获取模块32,用于爬取目标域名所属的第一页面,获得第一页面的超文本标记语言html信息;提取模块34,用于提取第一页面的html信息中预设类型的链接,并提取预设类型的链接各自所属的第二页面的标题信息,得到标题集合;分词模块36,用于对标题集合中的各个标题信息进行分词处理,确认各个标题信息的公共词;翻译模块38,用于对公共词进行合并,得到目标域名的翻译对象。
在本发明实施例中,通过爬取目标域名所属的第一页面,获得第一页面的超文本标记语言html信息;提取第一页面的html信息中预设类型的链接,并提取预设类型的链接各自所属的第二页面的标题信息,得到标题集合;对标题集合中的各个标题信息进行分词处理,确认各个标题信息的公共词;对公共词进行合并,得到目标域名的翻译对象,达到了提升域名翻译的效率的目的,从而实现了系统自动翻译学习域名的技术效果,进而解决了由于人工操作带来的效率低的技术问题。
可选的,提取模块34包括:提取单元,用于提取第一页面的html信息中的标题信息和预设类型的链接,并提取预设类型的链接各自所属的第二页面的标题信息,使用第一页面的标题信息和各个第二页面的标题信息构成标题集合。
可选的,分词模块36包括:分词单元,用于依据预设分词条件对标题集合中的各个标题信息进行分词,得到分词后的各个标题信息;词语获取单元,用于对分词后的各个标题信息取交集操作,得到公共词,其中,公共词为在分词后的各个标题信息中所能提取出的连续文本长度最长、文本对应相同的至少一个分词。
可选的,该装置还包括:词语处理模块,用于在对公共词进行合并之前,对公共词进行去重处理。
进一步地,可选的,词语处理模块包括:词语处理单元,用于对公共词中内容相同的分词执行去重操作,得到去重后的公共词,其中,去重操作为去除相同重复的词的操作;翻译模块38包括:翻译单元,用于合并去重后的公共词,得到目标域名的翻译对象。
可选的,该装置还包括:存储模块,用于将目标域名和目标域名的翻译对象以映射的形式存储至预存域名字典,其中,预存域名字典用于查询域名得到对应的翻译对象。
进一步地,可选的,该装置还包括:查询模块,用于查找预存域名字典中是否存在待查询域名的翻译对象;第一执行模块,用于若是,直接返回待查询域名的翻译对象;第二执行模块,用于若否,构造待查询域名的首页地址,并使用首页地址重新在预存域名字典中查找。
实施例四
根据本发明实施例,提供了一种域名查询的装置实施例,图4是根据本发明实施例的域名查询的装置的结构示意图,如图4所示,该装置包括:
查询模块42,用于查找预存域名字典中是否存在待查询域名的翻译对象,其中,预存域名字典用于查询域名得到对应的翻译对象;第一执行模块44,用于若是,直接返回待查询域名的翻译对象;第二执行模块46,用于若否,解析待查询域名,得到待查询域名对应的翻译对象,并将待查询域名和待查询域名的翻译对象存储至预存域名字典。
在本发明实施例中,通过查找预存域名字典中是否存在待查询域名的翻译对象,其中,预存域名字典用于查询域名得到对应的翻译对象;若是,直接返回待查询域名的翻译对象;若否,解析待查询域名,得到待查询域名对应的翻译对象,并将待查询域名和待查询域名的翻译对象存储至预存域名字典,达到了提升域名翻译的效率的目的,从而实现了系统自动翻译学习域名的技术效果,进而解决了由于人工操作带来的效率低的技术问题。
实施例五
根据本发明实施例的又一方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述实施例一和实施例二的域名翻译和查询的方法。
实施例六
根据本发明实施例的又一方面,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述实施例一和实施例二的域名翻译和查询的方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种域名翻译的方法,其特征在于,包括:
爬取目标域名所属的第一页面,获得第一页面的超文本标记语言html信息;
提取所述第一页面的html信息中预设类型的链接,并提取所述预设类型的链接各自所属的第二页面的标题信息,得到标题集合;
对所述标题集合中的各个标题信息进行分词处理,确认所述各个标题信息的公共词;
对所述公共词进行合并,得到所述目标域名的翻译对象。
2.根据权利要求1所述的方法,其特征在于,所述提取所述第一页面的html信息中预设类型的链接,并提取所述预设类型的链接各自所属的第二页面的标题信息,得到标题集合包括:
提取所述第一页面的html信息中的标题信息和预设类型的链接,并提取所述预设类型的链接各自所属的第二页面的标题信息,使用所述第一页面的标题信息和各个所述第二页面的标题信息构成标题集合。
3.根据权利要求1所述的方法,其特征在于,所述对所述标题集合中的各个标题信息进行分词处理,确认所述各个标题信息的公共词包括:
依据预设分词条件对所述标题集合中的各个标题信息进行分词,得到分词后的各个标题信息;
对所述分词后的各个标题信息取交集操作,得到所述公共词,其中,所述公共词为在所述分词后的各个标题信息中所能提取出的连续文本长度最长、文本对应相同的至少一个分词。
4.根据权利要求1至3中任一项所述的方法,其特征在于,在对所述公共词进行合并之前,所述方法还包括:对所述公共词进行去重处理。
5.根据权利要求4所述的方法,其特征在于,所述对所述公共词进行去重处理包括:
对所述公共词中内容相同的分词执行去重操作,得到去重后的公共词,其中,所述去重操作为去除相同重复的词的操作;
所述对所述公共词进行合并,得到所述目标域名的翻译对象包括:
合并所述去重后的公共词,得到所述目标域名的翻译对象。
6.根据权利要求1至3中任一项所述的方法,其特征在于,所述方法还包括:
将所述目标域名和所述目标域名的翻译对象以映射的形式存储至预存域名字典,其中,所述预存域名字典用于查询域名得到对应的翻译对象。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
查找预存域名字典中是否存在待查询域名的翻译对象;
若是,直接返回所述待查询域名的翻译对象;
若否,构造所述待查询域名的首页地址,并使用所述首页地址重新在所述预存域名字典中查找。
8.一种域名翻译的装置,其特征在于,包括:
获取模块,用于爬取目标域名所属的第一页面,获得第一页面的超文本标记语言html信息;
提取模块,用于提取所述第一页面的html信息中预设类型的链接,并提取所述预设类型的链接各自所属的第二页面的标题信息,得到标题集合;
分词模块,用于对所述标题集合中的各个标题信息进行分词处理,确认所述各个标题信息的公共词;
翻译模块,用于对所述公共词进行合并,得到所述目标域名的翻译对象。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至7中任意一项所述的域名翻译和查询的方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至7中任意一项所述的域名翻译和查询的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711031081.1A CN110020049A (zh) | 2017-10-27 | 2017-10-27 | 域名翻译和查询的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711031081.1A CN110020049A (zh) | 2017-10-27 | 2017-10-27 | 域名翻译和查询的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110020049A true CN110020049A (zh) | 2019-07-16 |
Family
ID=67186685
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711031081.1A Pending CN110020049A (zh) | 2017-10-27 | 2017-10-27 | 域名翻译和查询的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110020049A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112818212A (zh) * | 2020-04-23 | 2021-05-18 | 腾讯科技(深圳)有限公司 | 语料数据采集方法、装置、计算机设备和存储介质 |
CN115567328A (zh) * | 2022-12-06 | 2023-01-03 | 杭州菲助科技有限公司 | 一种视频资源地址的安全加密传输方法、装置及应用 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1379946A (zh) * | 1999-10-15 | 2002-11-13 | 汤姆森特许公司 | 处理因特网域名和地址的系统 |
CN101404024A (zh) * | 2008-11-25 | 2009-04-08 | 青岛海信移动通信技术股份有限公司 | 一种移动终端以及通过移动终端浏览网站内容的方法 |
US20120041826A1 (en) * | 2009-06-29 | 2012-02-16 | David Valin | Method for Transformation of a Website |
CN102682011A (zh) * | 2011-03-14 | 2012-09-19 | 腾讯科技(深圳)有限公司 | 建立域名描述名称信息表、搜索的方法、装置及系统 |
CN103778115A (zh) * | 2012-10-17 | 2014-05-07 | 腾讯科技(深圳)有限公司 | 网站名称提取方法及装置 |
CN105183905A (zh) * | 2015-09-30 | 2015-12-23 | 北京奇虎科技有限公司 | 一种官方网站网址的查询词挖掘方法和装置 |
-
2017
- 2017-10-27 CN CN201711031081.1A patent/CN110020049A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1379946A (zh) * | 1999-10-15 | 2002-11-13 | 汤姆森特许公司 | 处理因特网域名和地址的系统 |
CN101404024A (zh) * | 2008-11-25 | 2009-04-08 | 青岛海信移动通信技术股份有限公司 | 一种移动终端以及通过移动终端浏览网站内容的方法 |
US20120041826A1 (en) * | 2009-06-29 | 2012-02-16 | David Valin | Method for Transformation of a Website |
CN102682011A (zh) * | 2011-03-14 | 2012-09-19 | 腾讯科技(深圳)有限公司 | 建立域名描述名称信息表、搜索的方法、装置及系统 |
CN103778115A (zh) * | 2012-10-17 | 2014-05-07 | 腾讯科技(深圳)有限公司 | 网站名称提取方法及装置 |
CN105183905A (zh) * | 2015-09-30 | 2015-12-23 | 北京奇虎科技有限公司 | 一种官方网站网址的查询词挖掘方法和装置 |
Non-Patent Citations (1)
Title |
---|
汪传雷 等: ""网站链接行为动机研究"", 《图书情报工作》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112818212A (zh) * | 2020-04-23 | 2021-05-18 | 腾讯科技(深圳)有限公司 | 语料数据采集方法、装置、计算机设备和存储介质 |
CN112818212B (zh) * | 2020-04-23 | 2023-10-13 | 腾讯科技(深圳)有限公司 | 语料数据采集方法、装置、计算机设备和存储介质 |
CN115567328A (zh) * | 2022-12-06 | 2023-01-03 | 杭州菲助科技有限公司 | 一种视频资源地址的安全加密传输方法、装置及应用 |
CN115567328B (zh) * | 2022-12-06 | 2023-03-14 | 杭州菲助科技有限公司 | 一种视频资源地址的安全加密传输方法、装置及应用 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110245217B (zh) | 一种药品推荐方法、装置及电子设备 | |
US8051372B1 (en) | System and method for automatically detecting and extracting semantically significant text from a HTML document associated with a plurality of HTML documents | |
CN104715064B (zh) | 一种实现在网页上标注关键词的方法和服务器 | |
US20240281469A1 (en) | Facilitating Video Search | |
CN104199833B (zh) | 一种网络搜索词的聚类方法和聚类装置 | |
US20130326332A1 (en) | Systems and methods for content extraction | |
CN101350032A (zh) | 判断网页内容是否相同的方法 | |
CN104750704B (zh) | 一种网页url地址分类识别方法及装置 | |
US20090100056A1 (en) | Method And Device For Extracting Web Information | |
CN110970112B (zh) | 一种面向营养健康的知识图谱构建方法和系统 | |
CN107766571A (zh) | 一种多媒体资源的检索方法和装置 | |
EP2382534A1 (en) | Search engine for refining context-based queries based upon historical user feedback | |
JP2006004417A (ja) | 情報ファイルの特定のタイプを認識する方法及び装置 | |
CN110457579B (zh) | 基于模板和分类器协同工作的网页去噪方法及系统 | |
CN103778238A (zh) | 一种从维基百科半结构化数据自动构建分类树的方法 | |
CN108874870A (zh) | 一种数据抽取方法、设备及计算机可存储介质 | |
CN104331438A (zh) | 对小说网页内容选择性抽取方法和装置 | |
CN110020049A (zh) | 域名翻译和查询的方法和装置 | |
CN106528726A (zh) | 基于关键词优化实现搜索引擎优化技术 | |
CN102902792B (zh) | 列表页识别系统及方法 | |
CN103425646A (zh) | 一种web服务发现方法及其装置 | |
CN106547821A (zh) | 一种浏览器内根据关键词搜索相关网页的方法 | |
EP2122503B1 (en) | A method of filtering sections of a data stream | |
CN103577578B (zh) | 一种标记文件解析方法和装置 | |
JP5321777B2 (ja) | 参考キーワードを提示する機能を備えた商品検索装置および商品検索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing Applicant after: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd. Address before: 100086 Beijing city Haidian District Shuangyushu Area No. 76 Zhichun Road cuigongfandian 8 layer A Applicant before: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd. |
|
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190716 |