CN106649883B - 一种跨语言的主题网站自动发现方法 - Google Patents

一种跨语言的主题网站自动发现方法 Download PDF

Info

Publication number
CN106649883B
CN106649883B CN201710017871.8A CN201710017871A CN106649883B CN 106649883 B CN106649883 B CN 106649883B CN 201710017871 A CN201710017871 A CN 201710017871A CN 106649883 B CN106649883 B CN 106649883B
Authority
CN
China
Prior art keywords
website
topic
theme
model
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710017871.8A
Other languages
English (en)
Other versions
CN106649883A (zh
Inventor
程国艮
宋俊平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese Translation Language Through Polytron Technologies Inc
Original Assignee
Chinese Translation Language Through Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinese Translation Language Through Polytron Technologies Inc filed Critical Chinese Translation Language Through Polytron Technologies Inc
Priority to CN201710017871.8A priority Critical patent/CN106649883B/zh
Publication of CN106649883A publication Critical patent/CN106649883A/zh
Application granted granted Critical
Publication of CN106649883B publication Critical patent/CN106649883B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种跨语言的主题网站自动发现方法,所述方法根据种子网站或关键词集生成多语言主题模型,依据主题模型中的关键字进行网页信息采集,通过对相关网页进行聚类分析找出备选主题网站,将主题网站翻译后提供给用户,并根据用户反馈改进系统性能。本发明借助已有机器翻译引擎和网页信息采集系统辅助实现多种语言的主题相关网站自动发现,并设计人机协同机制将自动发现结果的准确性反馈给系统,逐步提升系统的性能;本发明实现了跨语言的主题网站自动发现;本发明提出了时序主题模型提取方法,提升了主题网站筛选的精度。

Description

一种跨语言的主题网站自动发现方法
技术领域
本发明属于互联网技术领域,尤其涉及一种跨语言的主题网站自动发现方法。
背景技术
随着互联网应用的推广,网络已经成为人们获取公开信息的最重要的途径,尤其是其全球互联的性质,可以让人们轻松获取世界各地所产生的信息,成为人们信息交互、文化交流的重要途径。但是网络信息的爆炸式增长也给人们获取特定信息带来不便。一方面,如何从海量信息中搜集到真正符合需求的内容是一个难点,即便是借助主流的搜索引擎,其搜索结果中往往也掺杂着大量无关信息,导致搜集有效信息的效率低下。另一方面,语言不通问题限制了人们获取其他语种信息的欲望和能力,外语信息的获取需要借助语言工作者的翻译和转载,导致信息的时效性大大降低。因此,如何准确并迅速的获取有效信息成为信息工作者所面临的重要问题。为了快速获取特定领域的信息,信息工作者通常会关注一些特定网站,并实时留意网站更新的内容。这些网站是与其领域相关性强,信息相关度高,内容较权威的站点,因此信息的有效性和时效性相对较高,是重要信息的主要来源。发现这些特定主题的网站对于信息工作者而言意义重大。然而网络世界繁杂且瞬息万变,每天都有可能有新的网站建立起来,一些有用网站尤其是外语网站很难被发现,如果采用人工搜索其工作量巨大且效率低下。而目前已有的主题网站自动发现方法主要存在两个问题:1,只针对单种语言,没有考虑外语主题网站的发现;2,主题模型仅采用一组关键词,没有考虑主题网站发布的内容随时间的演变,导致主题模型对网站内容描述能力较弱,将新发现网站与目标网站进行对比匹配时效果不好。
综上所述,目前已有的主题网站自动发现方法主要存在只针对单种语言,没有考虑外语主题网站的发现;主题模型仅采用一组关键词,没有考虑主题网站发布的内容随时间的演变,导致主题模型对网站内容描述能力较弱,将新发现网站与目标网站进行对比匹配时效果不好。
发明内容
本发明的目的在于提供一种跨语言的主题网站自动发现方法,旨在解决目前已有的主题网站自动发现方法主要存在只针对单种语言,没有考虑外语主题网站的发现;主题模型仅采用一组关键词,没有考虑主题网站发布的内容随时间的演变,导致主题模型对网站内容描述能力较弱,将新发现网站与目标网站进行对比匹配时效果不好的问题。
本发明是这样实现的,一种跨语言的主题网站自动发现方法,所述跨语言的主题网站自动发现方法根据种子网站或关键词集生成多语言主题模型,依据主题模型中的关键字进行网页信息采集,通过对相关网页进行聚类分析找出备选主题网站,将主题网站翻译后提供给用户,并根据用户反馈改进系统性能;
具体包括:
主题模型提取:将过去一段时间划分为几个时间段,分别计算每个时间段内网站的关键词,所有时间段的关键词组成网站的主题模型;在对比网站相似度时,分别对比各时间段内网站的相似度,然后根据各时间段的权重计算网站整体相似度,整体相似度大于给定阈值的即认定为主题相关网站;主题模型的定义如下:M=(K,A,L,N,P),其中M为主题模型,K为各时间段关键词向量,K=[K1,K2,……KN],其中Ki为第i个时间段的关键词向量A为各时间段关键词向量相似度的权重,A=[a1,a2,……aN];L为每个时间段关键词的个数,L=[l1,l2,……lN];N为时间段的个数;P为每个时间段的长度,P=[p1,p2,……,pN];其中A、L和P的值由用户结合实际情况进行设置;A的值越接近当前时间的时间段的权重越高;
网页信息采集:网页信息采集模块根据关键字检索相关网页并下载;
网站信息抽取:利用网站信息抽取模块从相关网页中聚合出备选主题网站;提取备选主题网站的主题模型并与种子网站主题模型进行对比,将相似度大于某一阈值的放入新发现主题网站列表;
网页翻译:利用已有机器翻译引擎将新发现主题网站列表中的外语网页翻译为本国语言;
展示及反馈:将翻译后的新发现主题网站中的内容展示给用户;由用户对新发现主题网站进行反馈,即评价是否真的主题网站,根据反馈结果对系统进行优化。
进一步,主题模型提取方法包括:
1)利用网页信息采集模块获取种子网站历史网页;
2)根据P设置N个子数据集,根据网页的发布时间将网页分别放入对应的子数据集;若某网页的发布时间t满足pi-1<t-t0≤pi,t0为当前时间,则将该网页放入第i个子数据集;
3)分别计算每个子数据集的关键词,第i个子数据集选取前li个关键词构成主题模型;
4)根据关键词和各参数值生成网站主题模型M;M=(K,A,L,N,P),其中M为主题模型,K为各时间段关键词向量,K=[K1,K2,……KN],其中Ki为第i个时间段的关键词向量A为各时间段关键词向量相似度的权重,A=[a1,a2,……aN];L为每个时间段关键词的个数,L=[l1,l2,……lN];N为时间段的个数;P为每个时间段的长度,P=[p1,p2,……,pN]。
进一步,如果没有种子站点,由用户直接指定各时间段的关键词生成主题模型;
当进行跨语言的主题网站自动发现时,外语网站主题模型生成方法包括两种根据实际情况进行选择的方法;
方法一为:对本语言主题模型的关键字进行翻译,直接生成外语主题模型;
方法二为:提供外语种子网站,自动提取主题模型。
进一步,网站信息抽取方法具体包括:
A)聚合备选主题网站:将url根据特殊字符进行切分;将切分后的url字段作为特征进行聚类;根据聚类结果生成备选主题网站;
B)生成新发现主题网站列表:提取备选主题网站的主题模型;计算备选主题网站与种子主题网站的相似度;将相似度大于h的网站放入新发现主题网站列表,并根据相似度的值对列表中的网站进行排序。
进一步,计算备选主题网站与种子主题网站的相似度计算方法包括:
采用向量空间余弦值法计算每个时间段内备选主题网站与种子主题网站的相似度;
计算整体相似度其中Si为第i个时间段内的相似度。
进一步,所述由用户对新发现主题网站进行反馈,即评价是否真的主题网站,根据反馈结果对系统进行优化,包括:
将用户肯定的网站加入种子主题网站,通过优化主题模型提升系统性能;
根据反馈优化步骤3中整体相似度阈值h。
本发明提出一种跨语言的主题网站自动发现方法,借助已有机器翻译引擎和网页信息采集系统辅助实现多种语言的主题相关网站自动发现,并设计人机协同机制将自动发现结果反馈给系统,将新发现网站用于主题模型的优化,提升对目标主题网站的描述能力,进而提升对新发现主题网站筛选的精度。
附图说明
图1是本发明实施例提供的跨语言主题网站自动发现方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
下面结合附图对本发明的应用原理作详细描述。
如图1所示,本发明实施例提供的跨语言的主题网站自动发现方法,所述跨语言的主题网站自动发现方法根据种子网站或关键词集生成多语言主题模型,依据主题模型中的关键字进行网页信息采集,通过对相关网页进行聚类分析找出备选主题网站,将主题网站翻译后提供给用户,并根据用户反馈改进系统性能;
具体包括:
1、主题模型提取:
主题模型提取的关键是提取出能够充分体现网站特点的特征,实现网站的可量化计算和对比。主题模型最常用的特征是关键词,通过TF-IDF等方式抽取网站的N个关键词,然后采用向量空间模型(VSM)等方式计算网站间的相似度,相似度大于某一阈值的网站即可认定为主题相关的网站。但是通常来讲,网站信息是经常更新的,同一组关键词虽然能够一定程度上体现网站的整体特点,但是其精度较粗,对候选网站的过滤效果较差。针对这一问题,本专利提出了一种时序主题模型提取方法,其主要思想是将过去一段时间划分为几个时间段,分别计算每个时间段内网站的关键词,所有时间段的关键词组成网站的主题模型。在对比网站相似度时,分别对比各时间段内网站的相似度,然后根据各时间段的权重计算网站整体相似度,整体相似度大于给定阈值的即认定为主题相关网站。
本发明主题模型的定义如下:
M=(K,A,L,N,P)
其中M为主题模型,K为各时间段关键词向量,K=[K1,K2,……KN],其中Ki为第i个时间段的关键词向量A为各时间段关键词向量相似度的权重,A=[a1,a2,……aN]。L为每个时间段关键词的个数,L=[l1,l2,......lN]。N为时间段的个数。P为每个时间段的长度(以月为单位),P=[p1,p2,......,pN]。其中A、L和P的值由用户结合实际情况进行设置。例如设置A的值时,越接近当前时间的时间段的权重应该越高。
主题模型提取流程如下:
1)利用网页信息采集模块获取种子网站历史网页;
2)根据P设置N个子数据集,根据网页的发布时间将网页分别放入对应的子数据集,例如某一网页的发布时间t属于pi,则该网页被放入第i个字数据集;
3)分别计算每个子数据集的关键词,第i个子数据集选取前li个关键词构成主题模型。建议采用词频和位置结合的方法。
4)根据关键词和各参数值生成网站主题模型M。
如果没有种子站点,也可以由用户直接指定各时间段的关键词生成主题模型。
当进行跨语言的主题网站自动发现时,外语网站主题模型生成方法有两种,根据实际情况进行选择。方法一,对本语言主题模型的关键字进行翻译,直接生成外语主题模型;方法二,提供外语种子网站,自动提取主题模型。其中方法二较为通用,适用于所有情况。方法一仅适用于某些各国情况较相似的领域,例如IT、科技等。对于各国情况各不相同的领域,例如军事,更适合采用方法二。
2、网页信息采集
网页信息采集模块根据关键字检索相关网页并下载。
3、网站信息抽取
网站信息抽取模块完成两个功能:1.从相关网页中聚合出备选主题网站;2.提取备选主题网站的主题模型并与种子网站主题模型进行对比,将相似度大于某一阈值的放入新发现主题网站列表。
1)聚合备选主题网站
a)将url根据特殊字符进行切分,例如‘?’、‘/’等;
b)将切分后的url字段作为特征进行聚类;
c)根据聚类结果生成备选主题网站。
2)生成新发现主题网站列表
a)提取备选主题网站的主题模型;
b)计算备选主题网站与种子主题网站的相似度,计算方法如下:
i)采用向量空间余弦值法计算每个时间段内备选主题网站与种子主题网站的相似度;
ii)整体相似度其中Si为第i个时间段内的相似度;
c)将相似度大于h的网站放入新发现主题网站列表,并根据相似度的值对列表中的网站进行排序。
4、网页翻译
利用已有机器翻译引擎将新发现主题网站列表中的外语网页翻译为本国语言。
5、展示及反馈
a)将翻译后的新发现主题网站中的内容展示给用户;
b)由用户对新发现主题网站进行反馈,即评价是否真的主题网站,根据反馈结果对系统进行优化,主要包含两个方面:
i)将用户肯定的网站加入种子主题网站,通过优化主题模型提升系统性能;
ii)根据反馈优化步骤3中整体相似度阈值h。
本发明提出一种跨语言的主题网站自动发现方法,借助已有机器翻译引擎和网页信息采集系统辅助实现多种语言的主题相关网站自动发现,并设计人机协同机制将自动发现结果的准确性反馈给系统,逐步提升系统的性能。
本发明实现了跨语言的主题网站自动发现;
本发明提出了时序主题模型提取方法,提升了主题网站筛选的精度。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种跨语言的主题网站自动发现方法,其特征在于,所述跨语言的主题网站自动发现方法根据种子网站或关键词集生成多语言主题模型,依据主题模型中的关键字进行网页信息采集,通过对相关网页进行聚类分析找出备选主题网站,将主题网站翻译后提供给用户,并根据用户反馈改进系统性能;
具体包括:
时序主题模型提取:将过去一段时间划分为几个时间段,分别计算每个时间段内网站的关键词,所有时间段的关键词组成网站的主题模型;在对比网站相似度时,分别对比各时间段内网站的相似度,然后根据各时间段的权重计算网站整体相似度,整体相似度大于给定阈值的即认定为主题相关网站;主题模型的定义如下:M=(K,A,L,N,P),其中M为主题模型,K为各时间段关键词向量,K=[K1,K2,......KN],其中Ki为第i个时间段的关键词向量Ki=[ki1,ki2,......kili];A为各时间段关键词向量相似度的权重,A=[a1,a2,......aN];L为每个时间段关键词的个数,L=[l1,l2,......lN];N为时间段的个数;P为每个时间段的长度,P=[p1,p2,......,pN];其中A、L和P的值由用户结合实际情况进行设置;A的值越接近当前时间的时间段的权重越高;
网页信息采集:网页信息采集模块根据关键字检索相关网页并下载;
网站信息抽取:利用网站信息抽取模块从相关网页中聚合出备选主题网站;提取备选主题网站的主题模型并与种子网站主题模型进行对比,将相似度大于某一阈值的放入新发现主题网站列表;
网页翻译:利用已有机器翻译引擎将新发现主题网站列表中的外语网页翻译为本国语言;
展示及反馈:将翻译后的新发现主题网站中的内容展示给用户;由用户对新发现主题网站进行反馈,即评价是否真的主题网站,根据反馈结果对系统进行优化。
2.如权利要求1所述的跨语言的主题网站自动发现方法,其特征在于,时序主题模型提取方法包括:
1)利用网页信息采集模块爬取种子网站历史网页;
2)根据P设置N个子数据集,根据网页的发布时间将网页分别放入对应的子数据集,若某网页的发布时间t满足pi-1<t-t0≤pi,t0为当前时间,则将该网页放入第i个子数据集;
3)分别计算每个子数据集的关键词,第i个子数据集选取前li个关键词构成主题模型;
4)根据关键词和各参数值生成网站主题模型M;M=(K,A,L,N,P),其中M为主题模型,K为各时间段关键词向量,K=[K1,K2,......KN],其中Ki为第i个时间段的关键词向量A为各时间段关键词向量相似度的权重,A=[a1,a2,......aN];L为每个时间段关键词的个数,L=[l1,l2,......lN];N为时间段的个数;P为每个时间段的长度,P=[p1,p2,......,pN]。
3.如权利要求2所述的跨语言的主题网站自动发现方法,其特征在于,如果没有种子站点,由用户直接指定各时间段的关键词生成主题模型;
当进行跨语言的主题网站自动发现时,外语网站主题模型生成方法包括两种根据实际情况进行选择的方法;
方法一为:对本语言主题模型的关键字进行翻译,直接生成外语主题模型;
方法二为:提供外语种子网站,自动提取主题模型。
4.如权利要求1所述的跨语言的主题网站自动发现方法,其特征在于,网站信息抽取方法具体包括:
A)聚合备选主题网站:将url根据特殊字符进行切分;将切分后的url字段作为特征进行聚类;根据聚类结果生成备选主题网站;
B)生成新发现主题网站列表:提取备选主题网站的主题模型;计算备选主题网站与种子主题网站的相似度;将相似度大于h的网站放入新发现主题网站列表,并根据相似度的值对列表中的网站进行排序。
5.如权利要求4所述的跨语言的主题网站自动发现方法,其特征在于,计算备选主题网站与种子主题网站的相似度计算方法包括:
采用向量空间余弦值法计算每个时间段内备选主题网站与种子主题网站的相似度;
计算整体相似度其中Si为第i个时间段内的相似度。
6.如权利要求1所述的跨语言的主题网站自动发现方法,其特征在于,所述由用户对新发现主题网站进行反馈,即评价是否真的主题网站,根据反馈结果对系统进行优化,包括:
将用户肯定的网站加入种子主题网站,通过优化主题模型提升对目标主题网站的描述能力,进而提升对新发现主题网站筛选的精度;
根据反馈优化网站信息抽取步骤中整体相似度阈值h。
CN201710017871.8A 2017-01-11 2017-01-11 一种跨语言的主题网站自动发现方法 Active CN106649883B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710017871.8A CN106649883B (zh) 2017-01-11 2017-01-11 一种跨语言的主题网站自动发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710017871.8A CN106649883B (zh) 2017-01-11 2017-01-11 一种跨语言的主题网站自动发现方法

Publications (2)

Publication Number Publication Date
CN106649883A CN106649883A (zh) 2017-05-10
CN106649883B true CN106649883B (zh) 2019-12-17

Family

ID=58844070

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710017871.8A Active CN106649883B (zh) 2017-01-11 2017-01-11 一种跨语言的主题网站自动发现方法

Country Status (1)

Country Link
CN (1) CN106649883B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102214990B1 (ko) * 2018-11-26 2021-02-15 김준 북마크관리 및 정보검색 서비스 제공시스템 및 이를 이용한 북마크관리 및 정보검색 서비스 제공방법
CN112100500A (zh) * 2020-09-23 2020-12-18 高小翎 范例学习驱动的内容关联网站发掘方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102779135B (zh) * 2011-05-13 2015-07-01 北京百度网讯科技有限公司 跨语言获取搜索资源的方法和装置及对应搜索方法和装置
US10142278B2 (en) * 2014-10-14 2018-11-27 Adobe Systems Incorporated Automatic anomaly alerts for scheduled posts
CN104408157A (zh) * 2014-12-05 2015-03-11 四川诚品电子商务有限公司 一种网络舆情漏斗式数据采集分析推送系统及方法

Also Published As

Publication number Publication date
CN106649883A (zh) 2017-05-10

Similar Documents

Publication Publication Date Title
CN103365924B (zh) 一种互联网信息搜索的方法、装置和终端
EP2181405B1 (en) Automatic expanded language search
EP3522029A1 (en) Natural language search results for intent queries
CN103838785A (zh) 一种专利领域的垂直搜索引擎
JP2017220203A (ja) 類似性スコアに基づきコンテンツアイテムと画像とのマッチングを評価する方法、およびシステム
CN107690634B (zh) 自动查询模式生成方法及系统
CN101464897A (zh) 一种词匹配及信息查询方法及装置
Wu et al. Titan: a system for effective web service discovery
JP2017220205A (ja) 検索クエリに応答してコンテンツとマッチングしようとする画像を動的にランキングする方法及びシステム
CN106021418B (zh) 新闻事件的聚类方法及装置
Abdurakhmonova et al. Applying Web Crawler Technologies for Compiling Parallel Corpora as one Stage of Natural Language Processing
CN105335487A (zh) 基于农业技术信息本体库的农业专家信息检索系统及方法
CN101794277B (zh) 一种网络文字信息中嵌入地理标签的方法及系统
CN105183884A (zh) 一种基于大数据技术的搜索引擎系统及搜索引擎方法
CN103678412A (zh) 一种文档检索的方法及装置
CN103942268A (zh) 搜索与应用相结合的方法、设备以及应用接口
CN103744954A (zh) 一种词关联网模型的构建方法及其构建器
CN102063454A (zh) 一种搜索与应用相结合的方法和设备
CN103970800A (zh) 网页相关关键词的抽取处理方法和系统
JP5221664B2 (ja) 情報マップ管理システムおよび情報マップ管理方法
CN102156749B (zh) 一种地图网站的自动搜索判别方法、系统及其分布式服务器系统
CN103020083B (zh) 需求识别模板的自动挖掘方法、需求识别方法及对应装置
CN106649883B (zh) 一种跨语言的主题网站自动发现方法
US20170235835A1 (en) Information identification and extraction
CN103942204A (zh) 用于挖掘意图的方法和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100040 Shijingshan District railway building, Beijing, the 16 floor

Applicant after: Chinese translation language through Polytron Technologies Inc

Address before: 100040 Shijingshan District railway building, Beijing, the 16 floor

Applicant before: Mandarin Technology (Beijing) Co., Ltd.

GR01 Patent grant
GR01 Patent grant