CN113761869A - 资源覆盖率的检测方法、装置及计算机可读存储介质 - Google Patents

资源覆盖率的检测方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN113761869A
CN113761869A CN202110946927.4A CN202110946927A CN113761869A CN 113761869 A CN113761869 A CN 113761869A CN 202110946927 A CN202110946927 A CN 202110946927A CN 113761869 A CN113761869 A CN 113761869A
Authority
CN
China
Prior art keywords
text
resource
detected
target text
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110946927.4A
Other languages
English (en)
Inventor
刘雅云
苏荣耀
罗红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Hangzhou Information Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Hangzhou Information Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202110946927.4A priority Critical patent/CN113761869A/zh
Publication of CN113761869A publication Critical patent/CN113761869A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种资源覆盖率的检测方法、装置及计算机可读存储介质,所述资源覆盖率的检测方法包括:在待检测文本资源中搜索与目标文本相匹配的文本得到待检测文本,其中,所述目标文本根据目标文本资源中的文本确定得到;获取所述待检测文本与所述目标文本的编辑距离;根据所述编辑距离确定所述待检测文本与所述目标文本的相似度;根据所述相似度确定所述待检测文本资源中覆盖所述目标文本资源的资源覆盖率,并输出所述资源覆盖率。本发明旨在提高资源覆盖率的检测效率。

Description

资源覆盖率的检测方法、装置及计算机可读存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种资源覆盖率的检测方法、装置及计算机可读存储介质。
背景技术
很多业务场景中都需要检测资源覆盖率,例如,在开展大屏业务运营中,需要通过比对各省全量资源中的剧集名称与剧集热点数据清单中的剧集名称的相似度来检测各省魔百和引入的全量资源中热点资源的覆盖率。运营人员每天从豆瓣、百度风云榜、猫眼、骨朵数据、酷云EYE、艺恩数据等平台获取的根据搜索指数、票房占比、单日播放量、全网热度等指标获取数据,按照一定的算法得出电视剧,电影、综艺、动漫、少儿等不同类型的剧集热点数据清单,然后在各省全量资源中依次搜索剧集热点数据清单中的剧集名称,将搜索到的剧集名称与热点剧集名称进行相似度评估,以检测各省魔百和引入的全量资源中热点资源的覆盖率。目前,一般通过手动搜索剧集热点数据清单中的剧集名称,通过人工评估的方式判断搜索到的剧集名称与热点剧集名称的相似度,根据相似度的评估结果检测各省魔百和引入的全量资源中热点资源的覆盖率,但是,各省的全量资源数据庞大,来源多样,人工检测资源覆盖率的效率较低。
发明内容
本发明的主要目的在于提供一种资源覆盖率的检测方法、装置及计算机可读存储介质,旨在提高资源覆盖率的检测效率。
为实现上述目的,本发明提供一种资源覆盖率的检测方法,所述资源覆盖率的检测方法包括:
在待检测文本资源中搜索与目标文本相匹配的文本得到待检测文本,其中,所述目标文本根据目标文本资源中的文本确定得到;
获取所述待检测文本与所述目标文本的编辑距离;
根据所述编辑距离确定所述待检测文本与所述目标文本的相似度;
根据所述相似度确定所述待检测文本资源中覆盖所述目标文本资源的资源覆盖率,并输出所述资源覆盖率。
可选地,所述获取所述待检测文本与所述目标文本的编辑距离的步骤包括:
获取所述待检测文本转换成所述目标文本所需的最少编辑次数;
根据所述最少编辑次数确定所述待检测文本与所述目标文本的编辑距离。
可选地,所述获取所述待检测文本与所述目标文本的编辑距离的步骤之后,还包括:
获取所述目标文本的同义词文本;
将所述目标文本更新为所述同义词文本,并执行所述获取所述待检测文本与所述目标文本的编辑距离的步骤。
可选地,所述获取所述目标文本的同义词文本的步骤包括:
获取同义词匹配库;
根据所述目标文本资源更新所述同义词匹配库;
根据更新后的所述同义词匹配库确定所述目标文本的同义词文本。
可选地,所述获取所述待检测文本与所述目标文本的编辑距离的步骤之后,还包括:
获取所述目标文本的模糊词文本;
将所述目标文本更新为所述模糊词文本,并执行所述获取所述待检测文本与所述目标文本的编辑距离的步骤。
可选地,所述获取所述目标文本的模糊词文本的步骤包括:
获取模糊词匹配库;
根据所述模糊词匹配库确定所述目标文本的模糊词文本。
可选地,所述在待检测文本资源中搜索与目标文本相匹配的文本得到待检测文本的步骤之前,还包括:
获取所述待检测文本资源;
对所述待检测文本资源进行数据清洗,以去除干扰数据;
其中,所述在待检测文本资源中搜索与目标文本相匹配的文本得到待检测文本的步骤包括:
在数据清洗后的所述待检测文本资源中搜索与所述目标文本相匹配的文本得到待检测文本。
此外,为实现上述目的,本发明还提供一种资源覆盖率的检测装置,所述资源覆盖率的检测装置包括:
搜索模块,用于在待检测文本资源中搜索与目标文本相匹配的文本得到待检测文本,其中,所述目标文本根据目标文本资源中的文本确定得到;
获取模块,用于获取所述待检测文本与所述目标文本的编辑距离;
确定模块,用于根据所述编辑距离确定所述待检测文本与所述目标文本的相似度;
检测模块,用于根据所述相似度确定所述待检测文本资源中覆盖所述目标文本资源的资源覆盖率,并输出所述资源覆盖率。
此外,为实现上述目的,本发明还提供一种资源覆盖率的检测装置,所述资源覆盖率的检测装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的资源覆盖率的检测程序,所述资源覆盖率的检测程序被所述处理器执行时实现上述任一项所述的资源覆盖率的检测方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有资源覆盖率的检测程序,所述资源覆盖率的检测程序被处理器执行时实现上述任一项所述的资源覆盖率的检测方法的步骤。
本发明提出了一种资源覆盖率的检测方法、装置及计算机可读存储介质,通过在待检测文本资源中搜索与目标文本相匹配的文本得到待检测文本,其中,目标文本根据目标文本资源中的文本确定得到,获取待检测文本与目标文本的编辑距离,根据编辑距离确定待检测文本与目标文本的相似度,根据相似度确定待检测文本资源中覆盖目标文本资源的资源覆盖率,并输出资源覆盖率。本方案基于文本之间的编辑距离,确定文本间的相似度,根据相似度确定待检测文本资源中覆盖目标文本资源的资源覆盖率,实现资源覆盖率的自动检测,提高了资源覆盖率的检测效率。
附图说明
图1是本发明实施例方案涉及的资源覆盖率的检测装置的硬件架构示意图;
图2是本发明资源覆盖率的检测方法的第一实施例的流程示意图;
图3是本发明资源覆盖率的检测方法的第二实施例的流程示意图;
图4是本发明资源覆盖率的检测方法的第三实施例的流程示意图;
图5是本发明实施例方案涉及的资源覆盖率的检测装置的模块结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
作为一种实现方案,请参照图1,图1是本发明实施例方案涉及的资源覆盖率的检测装置的硬件架构示意图,如图1所示,该资源覆盖率的检测装置可以包括处理器101,例如CPU,存储器102,通信总线103,其中,通信总线103用于实现这些模块之间的连接通信。
存储器102可以是高速RAM存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。如图1所示,作为一种计算机可读存储介质的存储器102中可以包括资源覆盖率的检测程序;而处理器101可以用于调用存储器102中存储的资源覆盖率的检测程序,并执行以下操作:
在待检测文本资源中搜索与目标文本相匹配的文本得到待检测文本,其中,所述目标文本根据目标文本资源中的文本确定得到;
获取所述待检测文本与所述目标文本的编辑距离;
根据所述编辑距离确定所述待检测文本与所述目标文本的相似度;
根据所述相似度确定所述待检测文本资源中覆盖所述目标文本资源的资源覆盖率,并输出所述资源覆盖率。
进一步地,处理器101可以用于调用存储器102中存储的资源覆盖率的检测程序,并执行以下操作:
获取所述待检测文本转换成所述目标文本所需的最少编辑次数;
根据所述最少编辑次数确定所述待检测文本与所述目标文本的编辑距离。
进一步地,处理器101可以用于调用存储器102中存储的资源覆盖率的检测程序,并执行以下操作:
获取所述目标文本的同义词文本;
将所述目标文本更新为所述同义词文本,并执行所述获取所述待检测文本与所述目标文本的编辑距离的步骤。
进一步地,处理器101可以用于调用存储器102中存储的资源覆盖率的检测程序,并执行以下操作:
获取同义词匹配库;
根据所述目标文本资源更新所述同义词匹配库;
根据更新后的所述同义词匹配库确定所述目标文本的同义词文本。
进一步地,处理器101可以用于调用存储器102中存储的资源覆盖率的检测程序,并执行以下操作:
获取所述目标文本的模糊词文本;
将所述目标文本更新为所述模糊词文本,并执行所述获取所述待检测文本与所述目标文本的编辑距离的步骤。
进一步地,处理器101可以用于调用存储器102中存储的资源覆盖率的检测程序,并执行以下操作:
获取模糊词匹配库;
根据所述模糊词匹配库确定所述目标文本的模糊词文本。
进一步地,处理器101可以用于调用存储器102中存储的资源覆盖率的检测程序,并执行以下操作:
获取所述待检测文本资源;
对所述待检测文本资源进行数据清洗,以去除干扰数据;
其中,所述在待检测文本资源中搜索与目标文本相匹配的文本得到待检测文本的步骤包括:
在数据清洗后的所述待检测文本资源中搜索与所述目标文本相匹配的文本得到待检测文本。
资源覆盖率是指一种资源中对另一种同类资源的覆盖情况,在很多的业务场景中,资源覆盖率是一个具有很高价值的业务检测指标。例如,移动业务领域中,在开展大屏业务时,往往需要通过比对各省全量资源中的剧集名称与剧集热点数据清单中的剧集名称的相似度来检测各省魔百和引入的全量资源中热点资源的覆盖率。运营人员每天从豆瓣、百度风云榜、猫眼、骨朵数据、酷云EYE、艺恩数据等平台获取的根据搜索指数、票房占比、单日播放量、全网热度等指标获取数据,按照一定的算法得出电视剧,电影、综艺、动漫、少儿等不同类型的剧集热点数据清单,然后在各省全量资源中依次搜索剧集热点数据清单中的剧集名称,将搜索到的剧集名称与热点剧集名称进行相似度评估,以检测各省魔百和引入的全量资源中热点资源的覆盖率。
目前,为检测各省魔百和引入的全量资源中热点资源的覆盖率,一般通过手动搜索剧集热点数据清单中的剧集名称,通过人工评估的方式判断搜索到的剧集名称与热点剧集名称的相似度,根据相似度的评估结果检测各省魔百和引入的全量资源中热点资源的覆盖率。但是,由于各省的全量资源数据庞大,来源多样,现有的人工检测资源覆盖率的方法效率较低。
另外,由于现有技术是通过人工搜索热点资源覆盖内容的,人工搜索时必然会导致占用魔百和时间过长,影响其他场景使用魔百和,给相关使用者带来较差的用户体验。
基于上述相关技术存在的缺陷,本发明提出了一种资源覆盖率的检测方法,通过导入待检测文本资源(相当于现有技术中的各省的全量资源)以及目标文本资源(相当于现有技术中的热点资源),通过算法实现在待检测文本资源中搜索与目标文本(相当于现有技术中热点剧集名称)相匹配的文本得到待检测文本(相当于现有技术中搜索到的剧集名称),同时考虑到剧集名称是短文本的特点,本发明创造性的采用编辑距离的方式计算待检测文本与目标文本的相似度,当所有目标文本资源中的文本都按上述方式得到相似度后,根据相似度确定待检测文本资源中覆盖目标文本资源的覆盖率并输出覆盖率,实现资源覆盖率的自动高效检测。以下,通过具体实施例对本发明做进一步地解释说明。
请参照图2,图2是本发明资源覆盖率的检测方法的第一实施例的流程示意图,所述资源覆盖率的检测方法包括:
步骤S10,在待检测文本资源中搜索与目标文本相匹配的文本得到待检测文本,其中,所述目标文本根据目标文本资源中的文本确定得到;
步骤S20,获取所述待检测文本与所述目标文本的编辑距离;
步骤S30,根据所述编辑距离确定所述待检测文本与所述目标文本的相似度;
步骤S40,根据所述相似度确定所述待检测文本资源中覆盖所述目标文本资源的资源覆盖率,并输出所述资源覆盖率。
在本实施例中,本发明资源覆盖率的检测方法应用于资源覆盖率的检测装置,其中,资源覆盖率的检测装置可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal Digital Assistant,PDA)、便捷式媒体播放器(Portable Media Player,PMP)等移动终端,以及诸如数字TV、大屏电视、台式计算机等固定终端。需要说明的是,根据本发明实施方式中资源覆盖率的检测装置的构造,本发明资源覆盖率的检测方法也可以应用于其他设备,本实施例对此不作限定。
若要检测待检测文本资源中覆盖目标文本资源的资源覆盖率,将待检测文本资源以及目标文本资源导入待检测装置,其中,待检测文本资源可以是魔百和引入的全量媒体资源,通常由媒体资源的提供方提供,其包含魔百和引入的全部剧集名称,目标文本资源可以是热点媒体资源,通常由运营人员根据各平台数据,并通过一定的算法统计得到,其包含当前的热点剧集名称。
资源覆盖率的检测装置获取到待检测文本资源以及目标文本资源后,在待检测文本资源中搜索与目标文本相匹配的文本得到待检测文本,其中,目标文本是指目标文本资源中的文本,待检测文本是指以目标文本为搜索对象在待检测文本资源中的搜索结果。
例如,目标文本可以是热点媒体资源中的热点剧集名称,则待检测文本是以该热点剧集名称为搜索对象在全量媒体资源中的搜索结果。具体地,资源覆盖率的检测装置获取到魔百和引入的全量媒体资源以及热点媒体资源后,从热点媒体资源中获取热点剧集名称,以该热点剧集名称为搜索对象,在全量媒体资源中搜索该热点剧集名称得到搜索结果,该搜索结果即为待检测文本。需要说明的是,搜索结果至少包括一个剧集名称,资源覆盖率的检测装置可以在热点媒体资源中依次获取热点剧集名称进行搜索得到与该热点剧集名称相匹配的剧集名称,也可以采用并行算法同时获取热点媒体资源中的所有热点剧集名称进行搜索得到每个热点剧集名称相匹配的剧集名称。
资源覆盖率的检测装置获取到目标文本以及待检测文本后,比较目标文本以及待检测文本得到待检测文本与目标文本的编辑距离。其中,编辑距离是针对两个字符串(例如中英文字、数字等)的差异程度的量化量测指标,通过编辑距离可以判断待检测文本与目标文本的相似度,进而通过相似度确定待检测文本资源中是否包含该目标文本。
例如,资源覆盖率的检测装置获取到热点剧集名称以及在全量媒体资源中搜索到的剧集名称后,比较热点剧集名称与搜索到的剧集名称得到热点剧集名称与搜索到的剧集名称的编辑距离,以通过编辑距离确定热点剧集名称与搜索到的剧集名称的相似度,从而确定魔百和引入的全量媒体资源中是否包含该热点剧集。需要说明的是,若搜索到的剧集名称有多个,可以将搜索到的剧集名称与热点剧集名称依次比较得到热点剧集名称与各个搜索到的剧集名称的编辑距离,通过编辑距离确定热点剧集名称与各个搜索到的剧集名称的相似度,直到相似度符合预设值方停止继续比较。预设值是指热点剧集名称与搜索到的剧集名称相同的相似度条件,当搜索到的剧集名称与热点剧集名称的相似度小于这一预设值时,表明搜索到的剧集名称与热点剧集名称相同,魔百和引入的全量媒体资源中包含该热点剧集。举例来说,若搜索到的剧集名称有3个,将搜索到的剧集名称与热点剧集名称依次比较得到编辑距离并确定相似度,若第2个搜索到的剧集名称与热点剧集名称的相似度小于预设值时,可以确定魔百和引入的全量媒体资源中包含该热点剧集,不再计算第三个搜索到的剧集名称与热点剧集名称的编辑距离以及相似度。
进一步地,若待检测文本与目标文本的相似度大于预设值,此时并不意味着待检测文本资源中不包括该目标文本,很可能是该目标文本在待检测文本资源中是以同义词存在,资源覆盖率的检测装置可以获取同义词匹配库,并根据目标文本资源更新同义词匹配库,根据更新后的同义词匹配库确定目标文本的同义词文本,然后将目标文本更新为同义词文本,比较更新后的目标文本与待检测文本的编辑距离并确定相似度,通过更新后的目标文本与待检测文本的相似度确定待检测文本资源中是否包含该目标文本,更新后的编辑距离、相似度的确定过程与上述完全相同,在此不再赘述。需要说明的是,同义词匹配库预先存储在资源覆盖率的检测装置内,同义词匹配库可以人工手动更新维护,也可以根据当前的目标文本资源动态更新
例如,若热点剧集名称与在全量媒体资源中搜索到的剧集名称的相似度大于预设值,此时并不意味着魔百和引入的全量媒体资源中不包括该热点剧集,很可能是,该热点剧集名称在全量媒体资源中是以同义词存在。举例来说,热点剧集名称为“爱情公寓第五部”,而在全量媒体资源中搜索到的剧集名称是“爱情公寓第5季”,通过编辑距离确定的相似度可能会造成误判,这时,通过在同义词匹配库中获取热点剧集名称“爱情公寓第五部”的同义词文本“爱情公寓第5季”,将同义词文本“爱情公寓第5季”更新为热点剧集名称,然后获取更新后的热点剧集名称“爱情公寓第5季”与在全量媒体资源中搜索到的剧集名称“爱情公寓第5季”的编辑距离,然后确定相似度,根据相似度确定魔百和引入的全量媒体资源中是否包括热点剧集“爱情公寓第五部”。
本方案通过同义词匹配库优化通过编辑距离的量化结果,可以有效防止同义词带来的误判,提高资源覆盖率的检测准确率。
进一步地,若待检测文本与目标文本的相似度大于预设值,此时并不意味着待检测文本资源中不包括该目标文本,很可能是该目标文本在待检测文本资源中是以模糊词存在,资源覆盖率的检测装置可以获取模糊词匹配库,并根据目标文本资源更新模糊词匹配库,根据更新后的模糊词匹配库确定目标文本的模糊词文本,然后将目标文本更新为模糊词文本,比较更新后的目标文本与待检测文本的编辑距离并确定相似度,通过更新后的目标文本与待检测文本的相似度确定待检测文本资源中是否包含该目标文本,更新后的编辑距离、相似度的确定过程与上述完全相同,在此不再赘述。需要说明的是,模糊词匹配库预先存储在资源覆盖率的检测装置内,模糊词匹配库可以人工手动更新维护,也可以根据当前的目标文本资源动态更新。
例如,若热点剧集名称与在全量媒体资源中搜索到的剧集名称的相似度大于预设值,此时并不意味着魔百和引入的全量媒体资源中不包括该热点剧集,很可能是,该热点剧集名称在全量媒体资源中是以模糊词存在。举例来说,热点剧集名称为“歌手2020”,而在全量媒体资源中搜索到的剧集名称是“歌手当打之年”,通过编辑距离确定的相似度可能会造成误判,这时,通过在模糊词匹配库中获取热点剧集名称“歌手2020”的模糊词文本“歌手当打之年”,将模糊词文本“歌手当打之年”更新为热点剧集名称,然后获取更新后的热点剧集名称“歌手当打之年”与在全量媒体资源中搜索到的剧集名称“歌手当打之年”的编辑距离并确定相似度,根据相似度确定魔百和引入的全量媒体资源中是否包括该热点剧集“歌手2020”。
本方案通过模糊词匹配库优化通过编辑距离的量化结果,可以有效防止模糊词带来的误判,提高资源覆盖率的检测准确率。
按上述方式,当目标文本资源中的所有文本完成检测后,获取待检测文本资源中包括目标文本资源中的文本的数量,根据待检测文本资源中包括目标文本资源中的文本的数量以及目标文本资源的总数量可以确定检测文本资源中覆盖目标文本资源的覆盖率,并输出该覆盖率,同时,也可以输出待检测文本资源中所覆盖目标文本资源中的具体文本清单。
例如按上述方式,当热点媒体资源中的所以热点剧集名称完成检测后,获取魔百盒引入的全量媒体资源中包括热点媒体资源中的热点剧集的数量,根据全量媒体资源中包括热点媒体资源中的热点剧集的数量以及热点媒体资源中的热点剧集的总数确定魔百盒引入的全量媒体资源中覆盖热点媒体资源的资源覆盖率,并输出资源覆盖率,同时也可以输出全量媒体资源中所覆盖热点媒体资源中的具体热点剧集清单。
本实施例提供的技术方案中,通过在待检测文本资源中搜索与目标文本相匹配的文本得到待检测文本,其中,目标文本根据目标文本资源中的文本确定得到,获取待检测文本与目标文本的编辑距离,根据编辑距离确定待检测文本与目标文本的相似度,根据相似度确定待检测文本资源中覆盖目标文本资源的资源覆盖率,并输出资源覆盖率。本方案基于文本之间的编辑距离,确定文本间的相似度,根据相似度确定待检测文本资源中覆盖目标文本资源的资源覆盖率,实现资源覆盖率的自动检测,提高了资源覆盖率的检测效率。
请参照图3,图3是本发明资源覆盖率的检测方法的第二实施例的流程示意图,基于第一实施例,上述S20的步骤包括:
步骤S21,获取所述待检测文本转换成所述目标文本所需的最少编辑次数;
步骤S22,根据所述最少编辑次数确定所述待检测文本与所述目标文本的编辑距离。
本实施例中,资源覆盖率的检测装置获取到待检测文本与目标文本后,比较待检测文本与目标文本,确定待检测文本转换为目标文本所需的最少编辑次数,其中,许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符等。资源覆盖率的检测装置获取到待检测文本与目标文本的最少编辑次数后,将该最少编辑次数确定为待检测文本与目标文本的编辑距离。需要说明的是,也可以通过获取目标文本转换成待检测文本所需的最少编辑次数,通过该最少编辑次数确定待检测文本与目标文本的编辑距离。
例如,资源覆盖率的检测装置获取到热点剧集名称以及在全量媒体资源中搜索到的剧集名称后,将热点剧集名称与搜索到的剧集名称比较,确定将搜索到的剧集名称转换成热点剧集名称所需的最少编辑次数,将该最少编辑次数确定为热点剧集名称与在全量媒体资源中搜索到的剧集名称的编辑距离。举例来说,热点剧集名称为“爱情公寓第五部”,在全量媒体资源中搜索到的剧集名称为“爱情公寓第5季”,将“爱情公寓第5季”转换成“爱情公寓第五部”所需的最少编辑次数为2,则热点剧集名称“爱情公寓第五部”与全量媒体资源中搜索到的剧集名称“爱情公寓第5季”的编辑距离为2;热点剧集名称为“歌手2020”,在全量媒体资源中搜索到的剧集名称为“歌手当打之年”,将“歌手2020”转换成“歌手当打之年”所需的最少编辑次数为4,则热点剧集名称“歌手2020”与全量媒体资源中搜索到的剧集名称“歌手当打之年”的编辑距离为4。
本实施例提供的技术方案中,通过获取待检测文本转换成目标文本所需的最少编辑次数,根据最少编辑次数确定待检测文本与目标文本的编辑距离。本方案通过文本间的最少编辑次数确定编辑距离,利用编辑距离计算待检测文本资源中覆盖目标文本资源的资源覆盖率,提高了资源覆盖率的检测准确率以及效率。
请参照图4,图4是本发明资源覆盖率的检测方法的第三实施例的流程示意图,基于第一实施例,上述S10的步骤之前,还包括:
步骤S50,获取所述待检测文本资源;
步骤S60,对所述待检测文本资源进行数据清洗,以去除干扰数据;
其中,上述S10的步骤包括:
步骤S11,在数据清洗后的所述待检测文本资源中搜索与所述目标文本相匹配的文本得到待检测文本。
在本实施例中,将待检测文本资源导入资源覆盖率的检测装置,资源覆盖率的检测装置获取到待检测文本资源后,对待检测文本资源进行数据清洗,以去除待检测文本资源中的干扰数据。其中,干扰数据包括文本的标点符号以及空格之类的字符。通过对待检测文本资源进行数据清洗,去除空格和全角和半角下的冒号、感叹号、问号、括号等标点符号,同时统一英文为小写。通过对待检测文本资源进行数据清洗,防止了其他干扰数据影响资源覆盖率的检测结果,提高了资源覆盖率的检测准确率。需要说明是,由于目标文本资源是运营人员事先得到的文本资源,已经对其进行了相应的数据清洗处理,去除了干扰数据,故导入后无需再对其进行数据清洗;当然,若导入的目标文本资源为未进行数据清洗的文本资源,资源覆盖率的检测装置也可以对其进行数据清洗去除干扰数据。资源覆盖率的检测装置对待检测文本资源进行数据清洗后,在数据清洗后的待检测文本资源中搜索与目标文本相匹配的文本得到待检测文本,搜索过程与上述内容相同,具体可参考实施例一的内容,本实施例在此不再赘述。
例如,将魔百和引入的全量媒体资源导入资源覆盖率的检测装置,资源覆盖率的检测装置获取到全量媒体资源后,对全量媒体资源进行数据清洗,以去除全量媒体资源中剧集名称中的空格和全角和半角下的冒号、感叹号、问号、括号等标点符号,同时统一英文为小写,从而去除全量媒体资源中的干扰数据。资源覆盖率的检测装置对全量媒体资源进行数据清洗后,在数据清洗后的全量媒体资源中搜索与热点剧集名称相匹配的剧集名称得到搜索结果。
本实施例提供的技术方案中,通过对获取到的待检测文本资源进行数据清洗,可以去除干扰数据,防止文本中的干扰数据对资源覆盖率检测结果的影响,提高对资源覆盖率的检测准确率。
基于上述实施例,请参照图5,本发明还提供了一种资源覆盖率的检测装置,所述资源覆盖率的检测装置包括:
搜索模块100,用于在待检测文本资源中搜索与目标文本相匹配的文本得到待检测文本,其中,所述目标文本根据目标文本资源中的文本确定得到;
获取模块200,用于获取所述待检测文本与所述目标文本的编辑距离;
确定模块300,用于根据所述编辑距离确定所述待检测文本与所述目标文本的相似度;
检测模块400,用于根据所述相似度确定所述待检测文本资源中覆盖所述目标文本资源的资源覆盖率,并输出所述资源覆盖率。
基于上述实施例,本发明还提供了一种资源覆盖率的检测装置,上述资源覆盖率的检测装置可以包括存储器、处理器及存储在上述存储器上并可在上述处理器上运行的资源覆盖率的检测程序,上述处理器执行上述资源覆盖率的检测程序时,实现如上述任一实施例所述的资源覆盖率的检测方法的步骤。
基于上述实施例,本发明还提供一种计算机可读存储介质,其上存储有资源覆盖率的检测程序,上述资源覆盖率的检测程序被处理器执行时实现如上述任一实施例所述的资源覆盖率的检测方法的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是智能电视、手机、计算机等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种资源覆盖率的检测方法,其特征在于,所述资源覆盖率的检测方法包括:
在待检测文本资源中搜索与目标文本相匹配的文本得到待检测文本,其中,所述目标文本根据目标文本资源中的文本确定得到;
获取所述待检测文本与所述目标文本的编辑距离;
根据所述编辑距离确定所述待检测文本与所述目标文本的相似度;
根据所述相似度确定所述待检测文本资源中覆盖所述目标文本资源的资源覆盖率,并输出所述资源覆盖率。
2.如权利要求1所述的资源覆盖率的检测方法,其特征在于,所述获取所述待检测文本与所述目标文本的编辑距离的步骤包括:
获取所述待检测文本转换成所述目标文本所需的最少编辑次数;
根据所述最少编辑次数确定所述待检测文本与所述目标文本的编辑距离。
3.如权利要求1所述的资源覆盖率的检测方法,其特征在于,所述获取所述待检测文本与所述目标文本的编辑距离的步骤之后,还包括:
获取所述目标文本的同义词文本;
将所述目标文本更新为所述同义词文本,并执行所述获取所述待检测文本与所述目标文本的编辑距离的步骤。
4.如权利要求3所述的资源覆盖率的检测方法,其特征在于,所述获取所述目标文本的同义词文本的步骤包括:
获取同义词匹配库;
根据所述目标文本资源更新所述同义词匹配库;
根据更新后的所述同义词匹配库确定所述目标文本的同义词文本。
5.如权利要求1所述的资源覆盖率的检测方法,其特征在于,所述获取所述待检测文本与所述目标文本的编辑距离的步骤之后,还包括:
获取所述目标文本的模糊词文本;
将所述目标文本更新为所述模糊词文本,并执行所述获取所述待检测文本与所述目标文本的编辑距离的步骤。
6.如权利要求5所述的资源覆盖率的检测方法,其特征在于,所述获取所述目标文本的模糊词文本的步骤包括:
获取模糊词匹配库;
根据所述模糊词匹配库确定所述目标文本的模糊词文本。
7.如权利要求1所述的资源覆盖率的检测方法,其特征在于,所述在待检测文本资源中搜索与目标文本相匹配的文本得到待检测文本的步骤之前,还包括:
获取所述待检测文本资源;
对所述待检测文本资源进行数据清洗,以去除干扰数据;
其中,所述在待检测文本资源中搜索与目标文本相匹配的文本得到待检测文本的步骤包括:
在数据清洗后的所述待检测文本资源中搜索与所述目标文本相匹配的文本得到待检测文本。
8.一种资源覆盖率的检测装置,其特征在于,所述资源覆盖率的检测装置包括:
搜索模块,用于在待检测文本资源中搜索与目标文本相匹配的文本得到待检测文本,其中,所述目标文本根据目标文本资源中的文本确定得到;
获取模块,用于获取所述待检测文本与所述目标文本的编辑距离;
确定模块,用于根据所述编辑距离确定所述待检测文本与所述目标文本的相似度;
检测模块,用于根据所述相似度确定所述待检测文本资源中覆盖所述目标文本资源的资源覆盖率,并输出所述资源覆盖率。
9.一种资源覆盖率的检测装置,其特征在于,所述资源覆盖率的检测装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的资源覆盖率的检测程序,所述资源覆盖率的检测程序被所述处理器执行时实现如权利要求1-7中任一项所述的资源覆盖率的检测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有资源覆盖率的检测程序,所述资源覆盖率的检测程序被处理器执行时实现如权利要求1-7中任一项所述的资源覆盖率的检测方法的步骤。
CN202110946927.4A 2021-08-17 2021-08-17 资源覆盖率的检测方法、装置及计算机可读存储介质 Pending CN113761869A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110946927.4A CN113761869A (zh) 2021-08-17 2021-08-17 资源覆盖率的检测方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110946927.4A CN113761869A (zh) 2021-08-17 2021-08-17 资源覆盖率的检测方法、装置及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN113761869A true CN113761869A (zh) 2021-12-07

Family

ID=78790288

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110946927.4A Pending CN113761869A (zh) 2021-08-17 2021-08-17 资源覆盖率的检测方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113761869A (zh)

Similar Documents

Publication Publication Date Title
US9201879B2 (en) Method, apparatus and system for generating a feature vector
US8090724B1 (en) Document analysis and multi-word term detector
US9195738B2 (en) Tokenization platform
US8577882B2 (en) Method and system for searching multilingual documents
JP2007094775A (ja) 意味解析装置、意味解析方法および意味解析プログラム
US9317608B2 (en) Systems and methods for parsing search queries
CN109299235B (zh) 知识库搜索方法、装置及计算机可读存储介质
CN114021577A (zh) 内容标签的生成方法、装置、电子设备及存储介质
CN108153728B (zh) 一种关键词确定方法及装置
CN112445997A (zh) 一种提取cms多版本识别特征规则的方法及装置
CN108494728B (zh) 防止流量劫持的黑名单库创建方法、装置、设备及介质
US8335757B2 (en) Extracting patterns from sequential data
CN112784009A (zh) 一种主题词挖掘方法、装置、电子设备及存储介质
CN105790967B (zh) 一种网络日志处理方法和装置
CN116152831A (zh) 用于表意字符分析的方法和系统
CN113076961B (zh) 一种图像特征库更新方法、图像检测方法和装置
CN106844553B (zh) 基于样本数据的数据探测和扩充方法及装置
US20190332859A1 (en) Method for identifying main picture in web page
CN113761869A (zh) 资源覆盖率的检测方法、装置及计算机可读存储介质
CN111310442B (zh) 形近字纠错语料挖掘方法、纠错方法、设备及存储介质
JP2010272006A (ja) 関係抽出装置、関係抽出方法、及びプログラム
CN110633430B (zh) 事件发现方法、装置、设备和计算机可读存储介质
CN112579713B (zh) 地址识别方法、装置、计算设备及计算机存储介质
CN112818984A (zh) 标题生成方法、装置、电子设备和存储介质
CN111880776A (zh) 一种层级关系获得方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination