CN113806660B - 数据评估方法、训练方法、装置、电子设备以及存储介质 - Google Patents

数据评估方法、训练方法、装置、电子设备以及存储介质 Download PDF

Info

Publication number
CN113806660B
CN113806660B CN202111096048.3A CN202111096048A CN113806660B CN 113806660 B CN113806660 B CN 113806660B CN 202111096048 A CN202111096048 A CN 202111096048A CN 113806660 B CN113806660 B CN 113806660B
Authority
CN
China
Prior art keywords
data
target
training
webpage
web page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111096048.3A
Other languages
English (en)
Other versions
CN113806660A (zh
Inventor
余文利
杨国强
刘伟
张博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202111096048.3A priority Critical patent/CN113806660B/zh
Publication of CN113806660A publication Critical patent/CN113806660A/zh
Priority to US17/995,278 priority patent/US20240220772A1/en
Priority to EP22773585.9A priority patent/EP4174683A4/en
Priority to PCT/CN2022/082281 priority patent/WO2023040230A1/zh
Priority to JP2022558470A priority patent/JP2023544925A/ja
Application granted granted Critical
Publication of CN113806660B publication Critical patent/CN113806660B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • G06V10/993Evaluation of the quality of the acquired pattern
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Quality & Reliability (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本公开公开了数据评估方法、评估模型的训练方法、装置、电子设备以及存储介质,涉及计算机技术领域,尤其涉及智能搜索、深度学习技术领域。具体实现方案为:响应于用于识别待识别索引数据的质量的请求,获取与待识别索引数据相对应的目标网页的目标关联数据,其中,目标网页为未知网页内容的网页,目标关联数据表征与待识别索引数据相对应的目标网页的质量;以及基于目标关联数据,得到针对待识别索引数据的质量评估结果。

Description

数据评估方法、训练方法、装置、电子设备以及存储介质
技术领域
本公开涉及计算机技术领域,尤其涉及智能搜索技术领域,具体涉及数据评估方法、评估模型的训练方法、装置、电子设备、存储介质以及程序产品。
背景技术
互联网时代,可以通过对采集到的网页进行处理,生成索引数据,基于用户的检索需求,搜索引擎匹配与检索需求相对应的索引数据,基于索引数据向用户展现相对应的网页。搜索引擎向用户展现的网页的质量会对用户的检索体验产生影响。
发明内容
本公开提供了一种用于数据评估的方法、评估模型的训练方法、装置、电子设备、存储介质以及程序产品。
根据本公开的一方面,提供了一种数据评估方法,包括:响应于用于识别待识别索引数据的质量的请求,获取与待识别索引数据相对应的目标网页的目标关联数据,其中,目标网页为未知网页内容的网页,目标关联数据表征与待识别索引数据相对应的目标网页的质量;以及基于目标关联数据,得到针对待识别索引数据的质量评估结果。
根据本公开的另一方面,提供了一种评估模型的训练方法,包括:确定针对索引数据的多个质量问题类型;针对多个质量问题类型中的每个质量问题类型,获取与每个质量问题类型相匹配的训练数据和与训练数据相对应的标签,其中,训练数据包括与样本索引数据相对应的样本网页的目标关联数据,样本网页为未知网页内容的网页,标签指示了样本索引数据的质量;以及利用训练数据和标签训练评估模型,得到经训练的评估模型。
根据本公开的另一方面,提供了一种数据评估的装置,包括:目标关联数据获取模块,用于响应于用于识别待识别索引数据的质量的请求,获取与待识别索引数据相对应的目标网页的目标关联数据,其中,目标网页为未知网页内容的网页,目标关联数据表征与待识别索引数据相对应的目标网页的质量;评估模块,用于评估模块,用于基于所述目标关联数据,得到针对所述待识别索引数据的质量评估结果。
根据本公开的另一方面,提供了一种评估模型的训练装置,包括:质量问题确定模块,用于确定针对索引数据的多个质量问题类型;训练数据获取模块,用于针对多个质量问题类型中的每个质量问题类型,获取与每个质量问题类型相匹配的训练数据和与训练数据相对应的标签,其中,训练数据包括与样本索引数据相对应的样本网页的目标关联数据,样本网页为未知网页内容的网页,标签指示了样本索引数据的质量;训练模块,用于利用训练数据和标签训练评估模型,得到经训练的评估模型。
根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行如上所述的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如上所述的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1示意性示出了根据本公开实施例的数据评估方法及装置的应用场景;
图2示意性示出了根据本公开实施例的数据评估方法的流程图;
图3示意性示出了根据本公开实施例的提取目标类型的目标关联特征的流程图;
图4示意性示出了根据本公开实施例的提取文本特征的示意图;
图5示意性示出了根据本公开实施例的提取用户反馈特征的示意图;
图6示意性示出了根据本公开实施例的数据评估方法的示意图;
图7示意性示出了根据本公开实施例的评估模型的训练方法的流程图;
图8示意性示出了根据本公开实施例的数据评估的装置的框图;
图9示意性示出了根据本公开实施例的评估模型的训练装置的框图;以及
图10示意性示出了根据本公开实施例的适于实现数据评估方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本公开提供了数据评估方法、评估模型的训练方法、装置、电子设备、存储介质以及程序产品。
根据本公开的实施例,数据评估方法包括:响应于用于识别待识别索引数据的质量的请求,获取与待识别索引数据相对应的目标网页的目标关联数据,其中,目标网页为未知网页内容的网页,目标关联数据表征与待识别索引数据相对应的目标网页的质量;以及基于目标关联数据,得到针对待识别索引数据的质量评估结果。
根据本公开的实施例,目标关联数据可以表征与待识别索引数据相对应的目标网页的质量,基于目标关联数据可以得到目标网页的质量评估结果。待识别索引数据的质量评估结果表征着与待识别索引数据相对应的目标网页的质量结果。因此,基于目标关联数据可以得到待识别索引数据的质量评估结果。进而可以在不获取目标网页的网页内容的情况下,基于目标关联数据得到与目标网页的质量结果相对应的待识别索引数据的质量评估结果。
图1示意性示出了根据本公开实施例的数据评估方法及装置的应用场景。
需要注意的是,图1所示仅为可以应用本公开实施例的场景的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。。
如图1所示,该应用场景可以包括终端设备101,网络102和服务器103。网络102用以在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户104可以使用终端设备101通过网络102与服务器103交互,以进行检索操作或浏览基于检索操作生成的网页。终端设备101上可以安装有各种通讯客户端应用,例如知识阅读类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。
终端设备101可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器103可以是提供各种服务的服务器,例如对用户104利用终端设备101所浏览的内容提供支持的后台管理服务器(仅为示例)。后台管理服务器可以利用本公开实施例中的数据评估方法得到高质量的索引数据,并基于用户104的检索操作,以及与检索操作相匹配的高质量的索引数据,将与索引数据相对应的高质量的目标网页反馈给终端设备101,以供用户104浏览,从而可以提高用户104的检索体验。
本公开实施例所提供的数据评估方法一般也可以由服务器103执行。相应地,本公开实施例所提供的数据评估装置一般可以设置于服务器103中。本公开实施例所提供的数据评估方法也可以由不同于服务器103且能够与终端设备101和/或服务器103通信的服务器或服务器集群执行。相应地,本公开实施例所提供的数据评估装置也可以设置于不同于服务器103且能够与终端设备101和/或服务器103通信的服务器或服务器集群中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2示意性示出了根据本公开实施例的数据评估方法的流程图。
如图2所示,该方法包括操作S210~S220。
在操作S210,响应于用于识别待识别索引数据的质量的请求,获取与待识别索引数据相对应的目标网页的目标关联数据,其中,目标网页为未知网页内容的网页,目标关联数据表征与待识别索引数据相对应的目标网页的质量。
在操作S220,基于目标关联数据,得到针对待识别索引数据的质量评估结果。
根据本公开的实施例,待识别索引数据可以是用于搜索网页的索引数据。例如,搜索引擎可以基于用户输入的搜索词,从例如搜索数据库中找到与搜索词相匹配的索引数据,基于与搜索词相匹配的索引数据,得到用户需求的与搜索词相关的网页。
根据本公开的实施例,待识别索引数据可以包括目标网页所在网站的URL(Uniform Resource Locator,统一资源定位符),还可以包括目标网页的网页内容包含的关键词,也可以包括与其它网页的链接关系等。
根据本公开的实施例,目标关联数据可以是非目标网页内容的相关数据,用于表征目标网页的质量的数据。例如,可以是链接到目标网页的源网页的相关数据,也可以是通过目标网页链接到的网页的相关数据,还可以是针对目标网页的用户反馈数据。但不仅限于此。只要能够表征与待识别索引数据相对应的目标网页的质量即可。
根据本公开的实施例,目标关联数据可以表征与待识别索引数据相对应的目标网页的质量。因此,基于目标关联数据,可以确定目标网页的质量结果,进一步的,基于目标关联数据也可得到与目标网页相对应的待识别索引数据的质量评估结果。
例如,目标网页可以是高质量网页,例如,目标网页可以是包括符合规范要求的、适宜呈现给用户的内容的网页。目标网页也可以是低质量网页,例如,目标网页可以包括违反法律法规的内容、违反公序良俗的内容等的网页。但不仅限于此。目标网页还可以是例如空白网页、缺少有效链接的网页或过期失效的网页等。针对高质量网页和低质量网页,其目标关联数据也会有相应的不同的反映。
根据本公开的实施例,目标关联数据可以表征与待识别索引数据相对应的目标网页的质量,基于目标关联数据可以得到目标网页的质量评估结果。待识别索引数据的质量评估结果表征着与待识别索引数据相对应的目标网页的质量结果。因此,基于目标关联数据可以得到待识别索引数据的质量评估结果。进而可以在不获取目标网页的网页内容的情况下,基于目标关联数据得到与目标网页的质量结果相对应的待识别索引数据的质量评估结果。
根据本公开的示例性实施例,可以通过待识别索引数据的质量评估结果,来确定与待识别索引数据相对应的目标网页的质量评估结果。因此,基于待识别索引数据的质量评估结果,可以筛选得到网页内容优质的目标网页,以便基于待识别索引数据展示给用户。从而可以在未知网页内容的情况下,提高基于待识别索引数据展现的网页内容的质量,提升用户的体验。
下面结合具体实施例,并参考图3~图6,对本公开实施例的数据评估方法做进一步说明。
根据本公开的实施例,目标关联数据可以包括以下至少一项:与目标网页相关的属性数据、与目标网页相关的网站的属性数据、针对目标网页的用户反馈数据。
根据本公开的实施例,与目标网页相关的属性数据可以包括目标网页中与链接相关的数据,例如可以是链接的数量、链接与其他网页的对应关系等。
根据本公开的实施例,与目标网页相关的属性数据可以包括以下至少一项:网页外链接数量、网页内链接数量、网页内与链接相关的文本数据。
根据本公开的实施例,网页外链接可以包括目标网页中可以链接至其他网页的链接,网页内链接可以包括目标网页中可以链接至网页内信息的链接,例如,网页内链接可以是链接至网页内文本信息或图像信息的链接。相应地,网页外链接数量可以包括目标网页中可以链接至其他网页的链接的数量,网页内链接数量可以包括目标网页中可以链接至网页内信息的链接的数量。
根据本公开的实施例,网页内与链接相关的文本数据可以包括网页的地址链接文本,例如http://www.xxyy.com/html/html-aaa.html,但不仅限于此,还可以包括网页内与链接相关的文本数据,例如可以链接至其他网页的文本数据,或者可以链接至网页内信息的文本数据。。
根据本公开的实施例,网页内与链接相关的文本数据可以表征目标网页的质量,例如网页内与链接相关的文本数据可以是目标网页中网页外链接的文本数据:“ABCD的真相”,在“ABCD的真相”包含违规信息的情况下,可以确定目标网页的质量为低质量。基于网页内与链接相关的文本数据,可以得到与目标网页相对应的待识别索引数据的质量评估结果,因此可以在不获取目标网页内容的情况下,提高评估待识别索引数据质量的准确率。
根据本公开的实施例,可以基于网页外链接数量和/或网页内链接数量,得到针对待识别索引数据的质量评估结果,可以基于网页内与链接相关的文本数据,来确定针对待识别索引数据的质量评估结果。
根据本公开的示例性实施例,可以从目标关联数据中确定网页内与链接相关的文本数据,作为目标类型的目标关联数据。从目标类型的目标关联数据中提取目标类型的目标关联特征,例如文本特征,作为目标关联数据。基于文本特征,得到针对待识别索引数据的质量评估结果。
图3示意性示出了根据本公开实施例的提取目标类型的目标关联特征的流程图。
如图3所示,在执行操作S220之前,该数据评估方法还包括操作S310~S320。
在操作S310,从目标关联数据中确定目标类型的目标关联数据。
在操作S320,从目标类型的目标关联数据中提取目标类型的目标关联特征,作为目标关联数据。
根据本公开的实施例,可以利用特征提取模型从目标类型的目标关联数据中提取目标关联特征,特征提取模型可以是基于神经网络构建的,特征提取模型例如可以包括长短期记忆网络(LSTM)、卷积神经网络(CNN)等,本领域技术人员可以根据实际需求构建特征提取模型,用于从目标类型的目标关联数据中提取目标关联特征。
根据本公开的实施例,目标类型的目标关联特征可以表征目标关联数据中语义信息的特征,还可以表征目标类型的目标关联数据中关键字或关键词的特征。因此提取目标类型的目标关联特征中的文本特征,作为目标关联数据,可以提高表征目标网页质量的准确率,从而提高确定待识别索引数据的质量评估结果的准确率。
根据本公开的示例性实施例,在目标类型的目标关联数据包括网页内与链接相关的文本数据的情况下,特征提取模型可以采用文本特征提取模型。
根据本公开的实施例,可以利用文本特征提取模型从网页内与链接相关的文本数据中提取文本特征。
根据本公开的实施例,文本特征提取模型包括顺序连接的切词模块和卷积神经网络模块。
根据本公开的实施例,网页内与链接相关的文本数据可以是:“本日新闻汇总”、“考试报名入口”等数据。
根据本公开的实施例,切词模块包括用于切分语料的模型,例如隐马尔可夫模型(HMM)或条件随机场模型(CRF)等。本公开的实施例对切词模块的具体设置方式不做限定。
根据本公开的实施例,卷积神经网络模块可以是例如卷积神经网络(CNN)或文本卷积神经网络(TextCNN)。本公开的实施例对卷积神经网络模块的具体设置方式不做限定。
图4示意性示出了根据本公开实施例的提取文本特征的示意图。
如图4所示,网页内与链接相关的文本数据410可以是“本周十大XX新闻汇总”,文本特征提取模型420包括顺序连接的切词模块421和卷积神经网络模块422。将网页内与链接文本数据410输入文本特征提取模型420,经切词模块421可以将网页内与链接相关的文本数据410切分为数据块:“本周”、“十大”、“XX”、“新闻”“汇总”,将上述数据块输入卷积神经网络模块422,生成文本特征430。
根据本公开的实施例,卷积神经网络模块包括文本卷积神经网络(TextCNN),利用切词模块将链接文本数据切分为多个数据块,并基于文本卷积神经网络(TextCNN)提取其中每个数据块的文本特征,可以提高文本特征提取模型的计算速度,从而快速提取文本特征。
根据本公开的实施例,利用文本特征提取模型,可以提取出更为关键以及简练的文本特征,将该文本特征作为目标类型的目标关联特征,并作为目标关联数据来确定待识别索引数据的质量评估结果,提升评估准确度。
根据本公开的实施例,目标关联数据还可以是针对目标网页的用户反馈数据。针对目标网页的用户反馈数据包括以下至少一项:收藏行为数据、点赞行为数据、分享行为数据、评论数据。
根据本公开的实施例,针对目标网页的用户反馈数据包括用户针对目标网页的内容产生的数据,例如针对目标网页的评论数据等。
根据本公开的实施例,针对目标网页的用户反馈数据可以初步表征用户对于目标网页的评价结果,依据用户对于目标网页的评价结果可以表征目标网页的质量。例如,针对目标网页的用户反馈数据为评论数据的情况下,可以识别评论数据的分类结果是积极类别害臊消极类别。在评论数据的分类结果为积极类别的情况下,可以初步表征用户对于目标网页的评价结果是积极评价,依据用户对于目标网页的积极评价结果,可以表征目标网页的质量为高质量。相应地,在评论数据的分类结果为消极类别的情况下,依据用户对于目标网页的消极评价结果,可以表征目标网页的质量为低质量。
根据本公开的实施例,在目标关联数据是针对目标网页的用户反馈数据的情况下,通过针对目标网页的用户反馈数据初步表征用户对于目标网页的评价结果,依据用户对于目标网页的评价结果确定表征目标网页的质量。因此基于针对目标网页的用户反馈数据得到的待识别索引数据的质量评估结果,是基于用户针对目标网页的评价结果得到的。因此可以提高待识别索引数据的质量评估结果的准确率。
根据本公开的实施例,针对目标网页的用户反馈数据可以是针对目标网页的用户操作行为产生的数据,而针对目标网页的用户操作行为可以真实的反映用户对于目标网页的体验,因此将针对所述目标网页的用户反馈数据作为目标关联数据,可以有效地表征目标网页的质量。因此,在实际应用中,基于针对目标网页的用户反馈数据,得到待识别索引数据的质量评估结果,以同时兼顾数据评估的速度与准确率。
根据本公开的实施例,可以通过如图3所示的操作确定目标类型的目标关联数据为针对目标网页的用户反馈数据。
根据本公开的实施例,针对目标网页的用户反馈数据可以包括收藏行为数据、点赞行为数据、分享行为数据、评论数据中的一项或多项,还包括针对与目标网页相关的网站的用户反馈数据。
根据本公开的示例性实施例,在目标类型的目标关联数据包括针对目标网页的用户反馈数据的情况下,特征提取模型可以采用反馈特征提取模型。
根据本公开的实施例,反馈特征提取模型可以包括顺序连接的编码解码模块、第一全连接层、长短期记忆网络模块和第二全连接层。
根据本公开的实施例,编码解码模块可以包括编码解码器(Transformer)。第一全连接层或第二全连接层包括全连接神经网络(DNN)。长短期记忆网络模块包括长短期记忆网络(LSTM)、或者还可以是基于长短期记忆网络(LSTM)构建的神经网络模型,例如双向长短期记忆网络(Bi-LSTM)。
应该理解的是,第一全连接层或第二全连接层可以包含有单个或多个隐藏层,本公开的实施例对第一全连接层或第二全连接层包含有的隐藏层的数量不做限定。
根据本公开的实施例,反馈特征提取模型包含有长短期记忆网络模块,长短期记忆网络模块可以处理用户反馈数据中的时序信息,获取用户反馈数据中的语义信息,因此利用反馈特征提取模型从针对目标网页的用户反馈数据中提取的用户反馈特征,利用用户反馈特征表征用户对于目标网页的评价结果,根据评价结果确定目标网页的质量,进而有效提升目标关联数据表征网页质量的准确率。
图5示意性示出了根据本公开实施例的提取用户反馈特征的示意图。
如图5所示,针对目标网页的用户反馈数据可以是用户反馈数据510,反馈特征提取模型520包括顺序连接的编码解码模块521、第一全连接层522、长短期记忆网络模块523和第二全连接层524。将用户反馈数据510输入反馈特征提取模型520中,经顺序连接的编码解码模块521、第一全连接层522、长短期记忆网络模块523和第二全连接层524处理后生成用户反馈特征530。
例如,用户反馈数据510包括用户的评论数据,例如可以是评论数据:“为什么网页中的链接都失效了?”,利用反馈特征提取模型520可以从用户反馈数据510中提取出用户反馈特征530。
根据本公开的实施例,通过反馈特征提取模型从针对目标网页的用户反馈数据中提取用户反馈特征,并基于用户反馈特征表征目标网页的质量,可以在未知目标网页的网页内容的情况下确定目标网页的质量,进而得到与目标网页相对应的待识别索引数据的质量评估结果。根据本公开的实施例,目标关联数据还可以是与目标网页相关的网站的属性数据。与目标网页相关的网站的属性数据可以包括以下至少一项:网站内链接数量、网站外链接数量、针对与目标网页相关的网站的用户反馈数据。
根据本公开的实施例,与目标网页相关的网站可以是目标网页的源网站。可以将目标网页的源网站的属性数据,作为目标关联数据的一种考察因素,来确定待识别索引数据的质量评估结果。
根据本公开的实施例,网站内链接可以包括可以链接至网站内其他网页的链接,网站外链接可以包括可以链接至其他网站的网页的链接。相应地,网站内链接数量可以包括可以链接至其他网站的网页的链接的数量,网站外链接数量可以包括可以链接至其他网站的网页的链接的数量。
根据本公开的实施例,针对与目标网页相关的网站的用户反馈数据可以包括用户针对网站中一个或多个网页的操作产生的数据,例如针对网站中一个或多个网页的评论数据、收藏行为数据、点赞行为数据等。
根据本公开的实施例,与目标网页相关的网站的用户反馈数据可以表征用户对与网站相关的目标网页的质量评估结果,例如在用户对网站的点赞行为数据高于预设点赞阈值的情况下,可以确定网站的质量为高质量,进而可以确定与网站相关的目标网页的质量为高质量。相应地,在用户对网站的点赞行为数据低于预设点赞阈值的情况下,可以确定网站的质量为低质量,进而可以确定与网站相关的目标网页的质量为低质量。
根据本公开的实施例,目标关联数据可以包括与目标网页相关的网站的属性数据,通过与目标网页相关的网站的属性数据表征目标网页的质量,可以扩大对目标网页质量评估的范围,提高目标网页的质量结果的准确率,进而可以提高与目标网页的质量结果相对应的待识别索引数据质量评估结果的准确率。
需要说明的是,可以结合实际应用需求选择与目标网页相关的属性数据、与目标网页相关的网站的属性数据、针对目标网页的用户反馈数据中的一个或多个作为目标关联数据。例如在针对目标网页的用户反馈数据的数据量满足预设条件的情况下,可以选择针对目标网页的用户反馈数据作为目标关联数据,来得到待识别索引数据的质量评估结果。
为进一步提高索引数据的质量评估结果的准确率,可以将与目标网页相关的属性数据、针对目标网页的用户反馈数据同时作为目标关联数据,得到待识别索引数据的质量评估结果,以提升评估待识别索引数据质量的准确率。应该理解的是,将与目标网页相关的属性数据、与目标网页相关的网站的属性数据、针对目标网页的用户反馈数据同时作为目标关联数据,并基于该目标关联数据得到的待识别索引数据的质量评估结果准确率最高,但数据评估的时间较长,本领域技术人员可以根据实际的数据评估时间需求与数据评估准确率需求,选择目标关联数据。
目标网页中与链接相关的数据可以表征目标网页中链接的质量,因此可以至少部分表征目标网页的质量。基于与目标网页相关的属性数据,得到待识别索引数据的质量评估结果,可以在不获取目标网页的内容的情况下,得到待识别索引数据的质量评估结果,从而可以提升得到索引数据的质量评估结果的速度。
根据本公开的实施例,可以基于与目标网页相关的属性数据和/或与目标网页相关的网站的属性数据,得到针对待识别索引数据的质量评估结果,也可以通过提取针对目标网页的用户反馈数据中的用户反馈特征,基于用户反馈特征到针对待识别索引数据的质量评估结果。
根据本公开的实施例,操作S220,基于目标关联数据,得到针对待识别索引数据的质量评估结果包括:将目标关联数据输入至评估模型,得到针对待识别索引数据的质量评估结果。
根据本公开的实施例,评估模型可以包括基于机器学习构建的模型,例如树模型、神经网络模型。
根据本公开的实施例,可以将目标关联数据输入评估模型,得到针对待识别索引数据的质量评估结果。例如,将与目标网页相关的属性数据、与目标网页相关的网站的属性数据、针对目标网页的用户反馈数据中的多种同时输入评估模型,得到针对待识别索引数据的质量评估结果。。
根据本公开的实施例,还可以利用文本特征提取模型从网页内与链接相关的文本数据中提取文本特征,或利用反馈特征提取模型利用反馈特征提取模型从针对所述目标网页的用户反馈数据中提取用户反馈特征。将文本特征和/或用户反馈特征与网页外链接数量或网页内链接数量共同作为目标关联数据输入评估模型,得到针对待识别索引数据的质量评估结果。
图6示意性示出了根据本公开实施例的数据评估方法的示意图。
如图6所示,针对目标网页的用户反馈数据可以是评论数据611,可以将评论数据611输入反馈特征提取模型612,利用反馈特征提取模型612从评论数据611中提取用户反馈特征613。用户反馈特征613可以作为目标类型的目标关联数据,并结合网页内链接数量620、网站内链接数量630共同输入至评估模型640。经评估模型640处理后,可以输出待识别索引数据的质量评估结果。在操作S610,可以判断待识别索引数据的质量评估结果是否表征低质量,在待识别索引数据的质量评估结果表征低质量的情况下,可以执行删除操作S620,即将该待识别索引数据删除。在判断待识别索引数据的质量评估结果不是表征低质量的情况下,可以执行保留操作S630,即保留该待识别索引数据。
根据本公开的实施例,评估模型的输出可以是评估数据值x,评估数据值x∈[0,1],在评估数据值x小于预设条件值的情况下,确定待识别索引数据为高质量索引数据,在评估数据值x大于或等于预设条件值的情况下,可以确定待识别索引数据为低质量索引数据。预设条件值可以根据实际需求进行选择,例如可以设置为0.5,本公开实施例对预设条件值的具体数值不做限定。
根据本公开的实施例,在待识别索引数据为高质量索引数据的情况下,可以将高质量索引数据保留至索引数据库中,以便基于高质量索引数据向用户展示高质量网页。在待识别索引数据为低质量索引数据的情况下,可以将低质量索引数据从索引数据库中删除,避免向用户展示与低质量索引数据相对应的低质量网页。
图7示意性示出了根据本公开实施例的评估模型的训练方法的流程图。
如图7所示,该方法包括操作S710~S730。
在操作S710,确定针对索引数据的多个质量问题类型。
在操作S720,针对多个质量问题类型中的每个质量问题类型,获取与每个质量问题类型相匹配的训练数据和与训练数据相对应的标签,其中,训练数据包括与样本索引数据相对应的样本网页的目标关联数据,样本网页为未知网页内容的网页,标签指示了样本索引数据的质量。
在操作S730,利用训练数据和标签训练评估模型,得到经训练的评估模型。
根据本公开的实施例,样本索引数据的质量问题类型可以为与样本网页相对应的质量问题类型。样本索引数据的质量问题类型可以包括作弊类型与缺陷类型。作弊类型可以指例如违反法律法规的内容、违反公序良俗的内容等的类型。缺陷类型可以指例如空白类型、失效类型等。
根据本公开的实施例,样本网页为未知网页内容的网页,训练数据包括样本网页的目标关联数据。可以利用样本网页的目标关联数据来表征样本网页的网页质量结果。而样本索引数据的质量相对应的反映着目标网页的网页质量。因此,可以根据目标关联数据来确定样本索引数据的质量。
根据本公开的实施例,利用指示了样本索引数据的质量的标签和以目标关联数据作为的训练数据训练评估模型,能够训练得到利用目标关联数据,在未知网页内容的情况下,来确定待识别索引数据的质量的评估模型。
根据本公开的实施例,利用多个质量问题类型的训练数据训练评估模型,训练数据的种类多,经训练的评估模型的鲁棒性高。根据本公开的实施例,利用训练数据和标签训练评估模型,得到经训练的评估模型可以包括如下操作。
从训练数据中确定目标类型的训练数据;从目标类型的训练数据中提取目标类型的训练特征;以及利用目标类型的训练特征和标签训练评估模型,得到经训练的评估模型。
利用本公开的实施例,从目标类型的训练数据中提取目标类型的训练特征,能够高效的提炼训练数据中的关键特征。利用目标类型的训练特征和标签训练评估模型,提高训练的收敛速度,以及经训练的评估模型的评估精度。
根据本公开的实施例,目标类型的训练数据包括针对样本网页的用户反馈数据。
根据本公开的实施例,从目标类型的训练数据中提取目标类型的训练特征包括:
利用反馈特征提取模型从针对样本网页的用户反馈数据中提取用户反馈特征。
根据本公开的实施例,反馈特征提取模型包括顺序连接的编码解码模块、第一全连接层、长短期记忆网络模块和第二全连接层。
根据本公开的实施例,目标类型的训练数据包括网页内与链接相关的文本数据。
根据本公开的实施例,从目标类型的训练数据中提取目标类型的训练特征包括:
利用文本特征提取模型从网页内与链接相关的文本数据中提取文本特征。
根据本公开的实施例,文本特征提取模型包括顺序连接的切词模块和卷积神经网络模块。
根据本公开的实施例,样本网页的目标关联数据包括以下至少一项:
与样本网页相关的属性数据、与样本网页相关的网站的属性数据、针对样本网页的用户反馈数据。
根据本公开的实施例,与样本网页相关的属性数据包括以下至少一项:网页外链接数量、网页内链接数量、网页内与链接相关的文本数据。
根据本公开的实施例,与样本网页相关的网站的属性数据包括以下至少一项:网站内链接数量、网站外链接数量、针对与样本相关的网站的用户反馈数据。
根据本公开的实施例,针对样本网页的用户反馈数据包括以下至少一项:收藏行为数据、点赞行为数据、分享行为数据、评论数据。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
图8示意性示出了根据本公开实施例的数据评估的装置的框图;
如图8所示,数据评估的装置800可以包括:目标关联数据获取模块810和评估模块820。
目标关联数据获取模块810,用于响应于用于识别待识别索引数据的质量的请求,获取与待识别索引数据相对应的目标网页的目标关联数据,其中,目标网页为未知网页内容的网页,目标关联数据表征与待识别索引数据相对应的目标网页的质量。
评估模块820,用于基于所述目标关联数据,得到针对所述待识别索引数据的质量评估结果。
根据本公开的实施例,数据评估的装置还包括:目标类型确定模块与提取模块。
目标类型确定模块,用于从目标关联数据中确定目标类型的目标关联数据。
提取模块,用于从目标类型的目标关联数据中提取目标类型的目标关联特征,作为目标关联数据。
根据本公开的实施例,目标类型的目标关联数据包括针对目标网页的用户反馈数据;
提取模块包括:第一提取单元。
第一提取单元,用于利用反馈特征提取模型从针对目标网页的用户反馈数据中提取用户反馈特征,其中,反馈特征提取模型包括顺序连接的编码解码模块、第一全连接层、长短期记忆网络模块和第二全连接层。
根据本公开的实施例,目标类型的目标关联数据包括网页内与链接相关的文本数据;
提取模块包括:第二提取单元。
第二提取单元,用于利用文本特征提取模型从网页内与链接相关的文本数据中提取文本特征,其中,文本特征提取模型包括顺序连接的切词模块和卷积神经网络模块。
根据本公开的实施例,评估模块包括:评估单元。
评估单元,用于将目标关联数据输入至评估模型,得到针对待识别索引数据的质量评估结果。
根据本公开的实施例,目标关联数据包括以下至少一项:
与目标网页相关的属性数据、与目标网页相关的网站的属性数据、针对目标网页的用户反馈数据。
根据本公开的实施例,与目标网页相关的属性数据包括以下至少一项:网页外链接数量、网页内链接数量、网页内与链接相关的文本数据。
与目标网页相关的网站的属性数据包括以下至少一项:网站内链接数量、网站外链接数量、针对与目标网页相关的网站的用户反馈数据。
针对目标网页的用户反馈数据包括以下至少一项:收藏行为数据、点赞行为数据、分享行为数据、评论数据。
图9示意性示出了根据本公开实施例的评估模型的训练装置的框图。
如图9所示,评估模型的训练装置900包括:质量问题确定模块910、训练数据获取模块920和训练模块930。
质量问题确定模块910,用于确定针对索引数据的多个质量问题类型。
训练数据获取模块920,用于针对多个质量问题类型中的每个质量问题类型,获取与每个质量问题类型相匹配的训练数据和与训练数据相对应的标签,其中,训练数据包括与样本索引数据相对应的样本网页的目标关联数据,样本网页为未知网页内容的网页,标签指示了样本索引数据的质量。
训练模块930,用于利用训练数据和标签训练评估模型,得到经训练的评估模型。
根据本公开的实施例,训练模块包括:确定单元、第三提取单元与训练单元。
确定单元,用于从训练数据中确定目标类型的训练数据。
第三提取单元,用于从目标类型的训练数据中提取目标类型的训练特征。
训练单元,用于利用目标类型的训练特征和标签训练评估模型,得到经训练的评估模型。
根据本公开的实施例,训练数据包括以下至少一项:
与样本网页相关的属性数据、与样本网页相关的网站的属性数据、针对样本网页的用户反馈数据。
根据本公开的实施例,与样本网页相关的属性数据包括以下至少一项:网页外链接数量、网页内链接数量、网页内与链接相关的文本数据。
与样本网页相关的网站的属性数据包括以下至少一项:网站内链接数量、网站外链接数量、针对与样本网页相关的网站的用户反馈数据。
针对样本网页的用户反馈数据包括以下至少一项:收藏行为数据、点赞行为数据、分享行为数据、评论数据。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
根据本公开的实施例,一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如上所述的方法。
根据本公开的实施例,一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行如上所述的方法。
根据本公开的实施例,一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如上所述的方法。
图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图10所示,设备1000包括计算单元1001,其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序,来执行各种适当的动作和处理。在RAM 1003中,还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。
设备1000中的多个部件连接至I/O接口1005,包括:输入单元1006,例如键盘、鼠标等;输出单元1007,例如各种类型的显示器、扬声器等;存储单元1008,例如磁盘、光盘等;以及通信单元1009,例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理,例如数据评估方法。例如,在一些实施例中,数据评估方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1008。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM1003并由计算单元1001执行时,可以执行上文描述的数据评估方法的一个或多个步骤。备选地,在其他实施例中,计算单元1001可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行数据评估方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以是分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (10)

1.一种数据评估方法,包括:
响应于用于识别待识别索引数据的质量的请求,获取与所述待识别索引数据相对应的目标网页的目标关联数据,其中,所述目标网页为未知网页内容的网页,所述目标关联数据表征与所述待识别索引数据相对应的目标网页的质量,所述待识别索引数据为用于搜索网页的索引数据;以及
基于所述目标关联数据,得到针对所述待识别索引数据的质量评估结果,以便在所述质量评估结果表征所述待识别索引数据的质量为低质量的情况下,从索引数据库中删除所述待识别索引数据;
其中,所述基于所述目标关联数据,得到针对所述待识别索引数据的质量评估结果之前,所述方法还包括:
从所述目标关联数据中确定目标类型的目标关联数据;以及
从所述目标类型的目标关联数据中提取目标类型的目标关联特征,作为所述目标关联数据;
其中,所述目标类型的目标关联数据包括网页内与链接相关的文本数据;
所述从所述目标类型的目标关联数据中提取目标类型的目标关联特征包括:
将所述网页内与链接相关的文本数据输入文本特征提取模型的切词模块中,得到数据块;以及
将所述数据块输入所述文本特征提取模型的卷积神经网络模块,得到文本特征,作为所述目标关联特征;
其中,在确定针对所述目标网页的用户反馈数据的数据量满足预设数据量阈值的情况下,所述目标类型的目标关联数据还包括针对所述目标网页的用户反馈数据,其中,所述针对所述目标网页的用户反馈数据包括以下至少一项:收藏行为数据、点赞行为数据、分享行为数据、评论数据;
所述从所述目标类型的目标关联数据中提取目标类型的目标关联特征包括:
利用反馈特征提取模型从所述针对所述目标网页的用户反馈数据中提取用户反馈特征,作为所述目标关联特征;
其中,所述反馈特征提取模型包括顺序连接的编码解码模块、第一全连接层、长短期记忆网络模块和第二全连接层;
其中,所述基于所述目标关联数据,得到针对所述待识别索引数据的质量评估结果包括:
将所述目标关联数据输入至评估模型,得到针对所述待识别索引数据的所述质量评估结果。
2.根据权利要求1所述的方法,其中,所述目标关联数据还包括以下至少一项:
与所述目标网页相关的属性数据、与所述目标网页相关的网站的属性数据。
3.根据权利要求2所述的方法,其中,
所述与所述目标网页相关的属性数据还包括以下至少一项:网页外链接数量、网页内链接数量;
所述与所述目标网页相关的网站的属性数据包括以下至少一项:网站内链接数量、网站外链接数量、针对所述与所述目标网页相关的网站的用户反馈数据。
4.一种评估模型的训练方法,包括:
确定针对样本索引数据的多个质量问题类型;
针对所述多个质量问题类型中的每个质量问题类型,获取与所述每个质量问题类型相匹配的训练数据和与所述训练数据相对应的标签,其中,所述训练数据包括与样本索引数据相对应的样本网页的目标关联数据,所述样本网页为未知网页内容的网页,所述标签指示了所述样本索引数据的质量,所述样本网页的目标关联数据包括网页内与链接相关的文本数据和针对样本网页的用户反馈数据,所述针对样本网页的用户反馈数据满足预设数据量阈值,所述针对样本网页的用户反馈数据包括以下至少一项:收藏行为数据、点赞行为数据、分享行为数据、评论数据;以及
利用所述训练数据和所述标签训练评估模型,得到经训练的评估模型;
其中,所述利用所述训练数据和所述标签训练评估模型,得到经训练的评估模型包括:
从所述训练数据中确定目标类型的训练数据;
从所述目标类型的训练数据中提取目标类型的训练特征;以及
利用所述目标类型的训练特征和所述标签训练所述评估模型,得到所述经训练的评估模型;
所述从所述目标类型的训练数据中提取目标类型的训练特征包括:
利用文本特征提取模型从网页内与链接相关的文本数据中提取文本特征,得到文本特征,作为所述目标类型的训练特征;
所述从所述目标类型的训练数据中提取目标类型的训练特征还包括:
利用反馈特征提取模型从所述针对样本网页的用户反馈数据中提取用户反馈特征,作为所述目标类型的训练特征;
其中,所述反馈特征提取模型包括顺序连接的编码解码模块、第一全连接层、长短期记忆网络模块和第二全连接层。
5. 一种数据评估的装置,包括:
目标关联数据模块,用于响应于用于识别待识别索引数据的质量的请求,获取与所述待识别索引数据相对应的目标网页的目标关联数据,其中,所述目标网页为未知网页内容的网页,所述目标关联数据表征与所述待识别索引数据相对应的目标网页的质量,所述待识别索引数据为用于搜索网页的索引数据;以及
评估模块,用于基于所述目标关联数据,得到针对所述待识别索引数据的质量评估结果,以便在所述质量评估结果表征所述待识别索引数据的质量为低质量的情况下,从索引数据库中删除所述待识别索引数据;
所述数据评估的装置还包括:
目标类型确定模块,用于从所述目标关联数据中确定目标类型的目标关联数据;以及
提取模块,用于从所述目标类型的目标关联数据中提取目标类型的目标关联特征,作为所述目标关联数据;
其中,所述目标类型的目标关联数据包括网页内与链接相关的文本数据;
所述提取模块包括:
将所述网页内与链接相关的文本数据输入文本特征提取模型的切词模块中,得到数据块;以及
将所述数据块输入所述文本特征提取模型的卷积神经网络模块,得到文本特征,作为所述目标关联特征;
其中,在确定针对所述目标网页的用户反馈数据的数据量满足预设数据量阈值的情况下,所述目标类型的目标关联数据还包括针对所述目标网页的用户反馈数据,其中,所述针对所述目标网页的用户反馈数据包括以下至少一项:收藏行为数据、点赞行为数据、分享行为数据、评论数据;
所述提取模块包括:
第一提取单元,用于利用反馈特征提取模型从所述针对所述目标网页的用户反馈数据中提取用户反馈特征,作为所述目标关联特征;
其中,所述反馈特征提取模型包括顺序连接的编码解码模块、第一全连接层、长短期记忆网络模块和第二全连接层;其中,所述评估模块包括:
评估单元,用于将所述目标关联数据输入至评估模型,得到针对所述待识别索引数据的所述质量评估结果。
6.根据权利要求5所述的装置,其中,所述目标关联数据还包括以下至少一项:
与所述目标网页相关的属性数据、与所述目标网页相关的网站的属性数据。
7.根据权利要求6所述的装置,其中,
所述与所述目标网页相关的属性数据还包括以下至少一项:网页外链接数量、网页内链接数量;
所述与所述目标网页相关的网站的属性数据包括以下至少一项:网站内链接数量、网站外链接数量、针对所述与所述目标网页相关的网站的用户反馈数据。
8.一种评估模型的训练装置,包括:
质量问题确定模块,用于确定针对样本索引数据的多个质量问题类型;
训练数据获取模块,用于针对所述多个质量问题类型中的每个质量问题类型,获取与所述每个质量问题类型相匹配的训练数据和与所述训练数据相对应的标签,其中,所述训练数据包括与样本索引数据相对应的样本网页的目标关联数据,所述样本网页为未知网页内容的网页,所述标签指示了所述样本索引数据的质量,所述样本网页的目标关联数据包括网页内与链接相关的文本数据和针对样本网页的用户反馈数据,所述针对样本网页的用户反馈数据满足预设数据量阈值,所述针对样本网页的用户反馈数据包括以下至少一项:收藏行为数据、点赞行为数据、分享行为数据、评论数据;以及
训练模块,用于利用所述训练数据和所述标签训练评估模型,得到经训练的评估模型;
所述训练模块包括:
确定单元,用于从所述训练数据中确定目标类型的训练数据;
第三提取单元,用于从所述目标类型的训练数据中提取目标类型的训练特征;以及
训练单元,用于利用所述目标类型的训练特征和所述标签训练所述评估模型,得到所述经训练的评估模型;
所述从所述目标类型的训练数据中提取目标类型的训练特征包括:
利用文本特征提取模型从网页内与链接相关的文本数据中提取文本特征,得到文本特征,作为所述目标类型的训练特征;
所述从所述目标类型的训练数据中提取目标类型的训练特征还包括:
利用反馈特征提取模型从所述针对样本网页的用户反馈数据中提取用户反馈特征,作为所述目标类型的训练特征;
其中,所述反馈特征提取模型包括顺序连接的编码解码模块、第一全连接层、长短期记忆网络模块和第二全连接层。
9. 一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-3中任一项所述的数据评估方法或者权利要求4所述的评估模型的训练方法。
10.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-3中任一项所述的数据评估方法或者权利要求4所述的评估模型的训练方法。
CN202111096048.3A 2021-09-17 2021-09-17 数据评估方法、训练方法、装置、电子设备以及存储介质 Active CN113806660B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN202111096048.3A CN113806660B (zh) 2021-09-17 2021-09-17 数据评估方法、训练方法、装置、电子设备以及存储介质
US17/995,278 US20240220772A1 (en) 2021-09-17 2022-03-22 Method of evaluating data, training method, electronic device, and storage medium
EP22773585.9A EP4174683A4 (en) 2021-09-17 2022-03-22 DATA EVALUATION METHOD AND APPARATUS, TRAINING METHOD AND APPARATUS AND ELECTRONIC DEVICE AND STORAGE MEDIA
PCT/CN2022/082281 WO2023040230A1 (zh) 2021-09-17 2022-03-22 数据评估方法、训练方法、装置、电子设备以及存储介质
JP2022558470A JP2023544925A (ja) 2021-09-17 2022-03-22 データ評価方法、トレーニング方法および装置、電子機器、記憶媒体、コンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111096048.3A CN113806660B (zh) 2021-09-17 2021-09-17 数据评估方法、训练方法、装置、电子设备以及存储介质

Publications (2)

Publication Number Publication Date
CN113806660A CN113806660A (zh) 2021-12-17
CN113806660B true CN113806660B (zh) 2024-04-26

Family

ID=78895888

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111096048.3A Active CN113806660B (zh) 2021-09-17 2021-09-17 数据评估方法、训练方法、装置、电子设备以及存储介质

Country Status (5)

Country Link
US (1) US20240220772A1 (zh)
EP (1) EP4174683A4 (zh)
JP (1) JP2023544925A (zh)
CN (1) CN113806660B (zh)
WO (1) WO2023040230A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113806660B (zh) * 2021-09-17 2024-04-26 北京百度网讯科技有限公司 数据评估方法、训练方法、装置、电子设备以及存储介质
CN114492370B (zh) * 2022-01-29 2023-09-01 北京百度网讯科技有限公司 网页识别方法、装置、电子设备和介质
CN114462901B (zh) * 2022-04-13 2022-07-12 石家庄科林物联网科技有限公司 有源配电网电能质量评价方法、装置、终端及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102486774A (zh) * 2010-12-01 2012-06-06 腾讯科技(深圳)有限公司 一种网络页面的质量获取方法、系统及服务器
CN102663054A (zh) * 2012-03-29 2012-09-12 奇智软件(北京)有限公司 一种确定网站权重的方法及装置
US8442984B1 (en) * 2008-03-31 2013-05-14 Google Inc. Website quality signal generation
CN104615680A (zh) * 2015-01-21 2015-05-13 广州神马移动信息科技有限公司 网页质量模型的建立方法及装置
CN108134784A (zh) * 2017-12-19 2018-06-08 东软集团股份有限公司 网页分类方法及装置、存储介质及电子设备
CN111222031A (zh) * 2019-11-22 2020-06-02 成都市映潮科技股份有限公司 一种网站判别方法及系统
CN111488513A (zh) * 2019-01-29 2020-08-04 百度在线网络技术(北京)有限公司 用于生成页面的方法和装置
CN111831936A (zh) * 2020-07-09 2020-10-27 威海天鑫现代服务技术研究院有限公司 一种信息检索结果排序方法、计算机设备和存储介质
CN111967503A (zh) * 2020-07-24 2020-11-20 西安电子科技大学 多类型异常网页分类模型的构建方法、异常网页检测方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1006458A1 (en) * 1998-12-01 2000-06-07 BRITISH TELECOMMUNICATIONS public limited company Methods and apparatus for information retrieval
US7451388B1 (en) * 1999-09-08 2008-11-11 Hewlett-Packard Development Company, L.P. Ranking search engine results
US7356530B2 (en) * 2001-01-10 2008-04-08 Looksmart, Ltd. Systems and methods of retrieving relevant information
WO2006034038A2 (en) * 2004-09-17 2006-03-30 Become, Inc. Systems and methods of retrieving topic specific information
US8429750B2 (en) * 2007-08-29 2013-04-23 Enpulz, L.L.C. Search engine with webpage rating feedback based Internet search operation
US8660993B2 (en) * 2007-12-20 2014-02-25 International Business Machines Corporation User feedback for search engine boosting
US8682811B2 (en) * 2009-12-30 2014-03-25 Microsoft Corporation User-driven index selection
US9183499B1 (en) * 2013-04-19 2015-11-10 Google Inc. Evaluating quality based on neighbor features
US10963470B2 (en) * 2017-09-06 2021-03-30 Siteimprove A/S Website scoring system
JP7109764B2 (ja) * 2017-10-15 2022-08-01 データ・サイエンティスト株式会社 評価装置、及び評価方法
CN113326418A (zh) * 2021-06-30 2021-08-31 北京百度网讯科技有限公司 用于确定网页信息源及网页质量的方法和装置
CN113806660B (zh) * 2021-09-17 2024-04-26 北京百度网讯科技有限公司 数据评估方法、训练方法、装置、电子设备以及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8442984B1 (en) * 2008-03-31 2013-05-14 Google Inc. Website quality signal generation
CN102486774A (zh) * 2010-12-01 2012-06-06 腾讯科技(深圳)有限公司 一种网络页面的质量获取方法、系统及服务器
CN102663054A (zh) * 2012-03-29 2012-09-12 奇智软件(北京)有限公司 一种确定网站权重的方法及装置
CN104615680A (zh) * 2015-01-21 2015-05-13 广州神马移动信息科技有限公司 网页质量模型的建立方法及装置
CN108134784A (zh) * 2017-12-19 2018-06-08 东软集团股份有限公司 网页分类方法及装置、存储介质及电子设备
CN111488513A (zh) * 2019-01-29 2020-08-04 百度在线网络技术(北京)有限公司 用于生成页面的方法和装置
CN111222031A (zh) * 2019-11-22 2020-06-02 成都市映潮科技股份有限公司 一种网站判别方法及系统
CN111831936A (zh) * 2020-07-09 2020-10-27 威海天鑫现代服务技术研究院有限公司 一种信息检索结果排序方法、计算机设备和存储介质
CN111967503A (zh) * 2020-07-24 2020-11-20 西安电子科技大学 多类型异常网页分类模型的构建方法、异常网页检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于用户行为模型的网页排序算法;贺元香 等;《兰州文理学院学报(自然科学版)》;第29卷(第3期);第63-67、111页 *
集成Web质量的垃圾网页分级检测机制研究;李法;《中国优秀硕士学位论文全文数据库 信息科技辑(月刊)》(第11期);第I139-257页 *

Also Published As

Publication number Publication date
EP4174683A4 (en) 2023-08-16
CN113806660A (zh) 2021-12-17
JP2023544925A (ja) 2023-10-26
WO2023040230A1 (zh) 2023-03-23
EP4174683A1 (en) 2023-05-03
US20240220772A1 (en) 2024-07-04

Similar Documents

Publication Publication Date Title
CN113806660B (zh) 数据评估方法、训练方法、装置、电子设备以及存储介质
CN114861889B (zh) 深度学习模型的训练方法、目标对象检测方法和装置
CN112579729B (zh) 文档质量评价模型的训练方法、装置、电子设备和介质
CN112926308B (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
CN113392218A (zh) 文本质量评估模型的训练方法和确定文本质量的方法
CN112989235A (zh) 基于知识库的内链构建方法、装置、设备和存储介质
CN112560461A (zh) 新闻线索的生成方法、装置、电子设备及存储介质
CN114692628A (zh) 样本生成方法、模型训练方法、文本抽取方法和装置
CN113205189B (zh) 训练预测模型的方法、预测方法及装置
CN114048315A (zh) 确定文档标签的方法、装置、电子设备和存储介质
CN115248890A (zh) 用户兴趣画像的生成方法、装置、电子设备以及存储介质
CN114201607B (zh) 一种信息处理的方法和装置
CN112818221B (zh) 实体的热度确定方法、装置、电子设备及存储介质
CN113792230B (zh) 服务链接方法、装置、电子设备和存储介质
CN114417886A (zh) 热点数据的处理方法、装置、电子设备及存储介质
CN113239273A (zh) 用于生成文本的方法、装置、设备以及存储介质
CN113221035A (zh) 用于确定异常网页的方法、装置、设备、介质和程序产品
CN112528644A (zh) 实体挂载的方法、装置、设备以及存储介质
CN116610782B (zh) 文本检索方法、装置、电子设备及介质
CN113377921B (zh) 用于匹配信息的方法、装置、电子设备以及介质
CN113360602B (zh) 用于输出信息的方法、装置、设备以及存储介质
CN113377922B (zh) 用于匹配信息的方法、装置、电子设备以及介质
CN117493704A (zh) 一种用户可信度的计算方法、装置、电子设备及介质
CN113934931A (zh) 信息推荐方法、装置、设备、存储介质及程序产品
CN117851546A (zh) 资源检索方法、训练方法、装置、电子设备、存储介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant