CN110196920B - 文本数据的处理方法和装置、以及存储介质和电子装置 - Google Patents

文本数据的处理方法和装置、以及存储介质和电子装置 Download PDF

Info

Publication number
CN110196920B
CN110196920B CN201810444924.9A CN201810444924A CN110196920B CN 110196920 B CN110196920 B CN 110196920B CN 201810444924 A CN201810444924 A CN 201810444924A CN 110196920 B CN110196920 B CN 110196920B
Authority
CN
China
Prior art keywords
text
texts
media resource
word segmentation
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810444924.9A
Other languages
English (en)
Other versions
CN110196920A (zh
Inventor
汤见乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Beijing Co Ltd
Original Assignee
Tencent Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Beijing Co Ltd filed Critical Tencent Technology Beijing Co Ltd
Priority to CN201810444924.9A priority Critical patent/CN110196920B/zh
Publication of CN110196920A publication Critical patent/CN110196920A/zh
Application granted granted Critical
Publication of CN110196920B publication Critical patent/CN110196920B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings

Abstract

本发明公开了一种文本数据的处理方法和装置、以及存储介质和电子装置。其中,该方法包括:抓取多个媒体资源集的每个媒体资源集中目标媒体资源的文本数据,得到多个文本,其中,多个文本与多个媒体资源集一一对应;确定多个文本中任意两个文本之间的文本相似度值;根据每个文本相对于多个文本中其它文本的文本相似度值,确定对应文本的文本准确度值;根据多个文本中文本准确度值符合目标条件的文本,对目标媒体资源集中的目标媒体资源的文本数据进行处理。本发明解决了相关技术中对文本数据进行处理的方法效率较低的技术问题。

Description

文本数据的处理方法和装置、以及存储介质和电子装置
技术领域
本发明涉及数据处理领域,具体而言,涉及一种文本数据的处理方法和装置、以及存储介质和电子装置。
背景技术
不同数据来源对同一对象的文本数据可能是错误的,例如,对于同一个视频,从不同的视频平台抓取到的数据可能是不同的,可能具有较大差别,并且可能有数据是错误数据,又由于不同平台的文本数据不是归一化的数据,现有技术中通常采用人工方式判断数据的准确性,较难实现对文本数据的准确性判断或数据清洗等处理方式,成本较高且效率较低。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供一种文本数据的处理方法和装置、以及存储介质和电子装置,以至少解决相关技术中对文本数据进行处理的方法效率较低的技术问题。
根据本发明实施例的一个方面,提供了一种文本数据的处理方法,包括:抓取多个媒体资源集的每个媒体资源集中目标媒体资源的文本数据,得到多个文本,其中,多个文本与多个媒体资源集一一对应;确定多个文本中任意两个文本之间的文本相似度值;根据每个文本相对于多个文本中其它文本的文本相似度值,确定对应文本的文本准确度值;根据多个文本中文本准确度值符合目标条件的文本,对目标媒体资源集中的目标媒体资源的文本数据进行处理。
根据本发明实施例的另一方面,还提供了一种文本数据的处理装置,包括:抓取单元,用于抓取多个媒体资源集的每个媒体资源集中目标媒体资源的文本数据,得到多个文本,其中,多个文本与多个媒体资源集一一对应;第一确定单元,用于确定多个文本中任意两个文本之间的文本相似度值;第二确定单元,用于根据每个文本相对于多个文本中其它文本的文本相似度值,确定对应文本的文本准确度值;第三确定单元,用于根据多个文本中文本准确度值符合目标条件的文本,对目标媒体资源集中的目标媒体资源的文本数据进行处理。
根据本发明实施例的又一方面,还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述方法。
根据本发明实施例的又一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述的方法。
在本发明实施例中,通过抓取多个媒体资源集的每个媒体资源集中目标媒体资源的文本数据,计算得到的多个文本中任意两个文本之间的文本相似度值,进而根据每个文本相对于多个文本中其它文本的文本相似度值,确定对应文本的文本准确度值,并根据多个文本中文本准确度值符合目标条件的文本,对在目标媒体资源集中的目标媒体资源的文本数据进行处理。因此,解决了相关技术中对文本数据进行处理的方法效率较低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种文本数据的处理方法的应用环境的示意图;
图2是根据本发明实施例的一种可选的文本数据的处理方法的流程示意图;
图3是根据本发明实施例的一种可选的文本数据的处理装置的结构示意图;
图4是根据本发明实施例的一种可选的电子装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例的一个方面,提供了一种文本数据的处理方法。可选地,上述文本数据的处理方法可以但不限于应用于如图1所示的应用环境中,如图1所示,终端102可以通过网络104从第一服务器106抓取第一媒体资源集中目标媒体资源的文本数据,得到第一文本,相似的,终端102还可以通过网络104从第二服务器108抓取第二媒体资源集中目标媒体资源的文本数据,得到第二文本,通过网络104从第三服务器110抓取第三媒体资源集中目标媒体资源的文本数据,得到第三文本。确定第一文本、第二文本和第三文本中任意两个文本之间的文本相似度值,并根据每个文本与其它文本的文本相似度情况计算用于度量该文本的文本准确度值,基于多个媒体资源集中多数是数据准确的情况,可以根据文本准确度值符合目标条件(例如,文本准确度值最高、或文本准确度值超过目标阈值)的文本调整在目标媒体资源集中目标媒体资源的文本数据,该目标媒体资源集可以是上述的三个媒体资源集中之一,也可以是上述的三个媒体资源集之外的媒体资源集。
在本发明实施例中,通过抓取多个媒体资源集的每个媒体资源集中目标媒体资源的文本数据,计算得到的多个文本中任意两个文本之间的文本相似度值,进而根据每个文本相对于多个文本中其它文本的文本相似度值,确定对应文本的文本准确度值,并根据多个文本中文本准确度值符合目标条件的文本,对在目标媒体资源集中的目标媒体资源的文本数据进行处理。因此,解决了相关技术中对文本数据进行处理的方法效率较低的技术问题。
可选地,在本实施例中,上述终端可以包括但不限于以下至少之一:手机、平板电脑等。上述网络可以包括但不限于无线网络,其中,该无线网络包括:蓝牙、WIFI及其他实现无线通信的网络。上述服务器可以包括但不限于以下至少之一:PC机及其他用于计算服务的设备。上述只是一种示例,本实施例对此不做任何限定。
作为一种可选的实施方式,如图2所示,上述文本数据的处理方法可以包括:
S202,抓取多个媒体资源集的每个媒体资源集中目标媒体资源的文本数据,得到多个文本,其中,多个文本与多个媒体资源集一一对应;
S204,确定多个文本中任意两个文本之间的文本相似度值;
S206,根据每个文本相对于多个文本中其它文本的文本相似度值,确定对应文本的文本准确度值;
S208,根据多个文本中文本准确度值符合目标条件的文本,对目标媒体资源集中的目标媒体资源的文本数据进行处理。
媒体资源集是媒体资源的集合,每个媒体资源集包括至少一个媒体资源。例如,媒体资源集可以是视频网站、新闻资讯网站等。
目标媒体资源为指定的媒体资源,例如,视频网站中的指定视频,或者,新闻资讯网站中对指定事件的报道。
目标媒体资源的文本数据是目标媒体资源中所包括的文本数据,可以是目标媒体资源中所有的文本数据,也可以是目标媒体资源中目标项的文本数据。例如,目标视频的文本数据可以是用于描述该视频所有文本数据,或者,目标视频的目标项(例如,目标项可以是标题、导演、演员、时间、标签等任一项或多项)的文本数据,对于新闻资讯网站而言,目标媒体资源的文本数据可以是关于某事件的新闻资讯的文本数据,等等。
在步骤S202中,通过抓取不同媒体资源集中目标媒体资源的文本数据,可以得到多个文本,每个文本包括该文本对应的媒体资源集中目标媒体资源的文本数据。
在得到多个文本之后,确定多个文本中任意两个文本之间的文本相似度值。两个文本之间的文本相似度可以采用目前任意的用于计算文本相似度的方法,其中,一类文本相似度算法是通过对两个文本的分词结果进行处理,以得到用于度量两个文本的相似度的值。例如,杰卡德(Jaccard)相似系数算法或余弦(Cosine)文本相似度算法。
在通过余弦(Cosine)文本相似度来度量两个文本的相似度的情况下,确定两个文本之间的文本相似度值的步骤可以包括:
S1,先对多个文本分别进行分词处理,得到每个文本的分词结果。例如,对第一文本进行分词处理得到第一分词集合【词汇1,词汇2,词汇3,词汇1,词汇4】,对第二文本进行分词得到第二分词集合【词汇1,词汇2,词汇3,词汇5】,对第三文本进行分词得到第三分词集合【词汇2,词汇2,词汇3,词汇5,词汇6】。
S2,根据多个文本的分词结果,生成每个文本的分词向量。具体的,每个分词向量的向量维数n为所述多个文本的分词集合中互不相同的分词的总个数,每个分词向量的各个元素值分别用于表示元素对应的分词在对应文本中出现的次数。
例如,第一文本至第三文本总共出现6个互不相同的词汇,因此设定每个分词向量为6维向量,每个向量元素分别用于表示一个词汇在该文本中出现的次数,第一文本的分词向量第二文本的分词向量/>第三文本的分词向量
S3,通过以下公式确定多个文本中第一文本的分词向量和第二文本的分词向量/>之间的夹角余弦值cosθ,以将夹角余弦值作为第一文本和第二文本之间的文本相似度值:
将n=6,带入上述公式中,即可以得到第一文本/>的分词向量和第二文本的分词向量/>之间的夹角余弦值cosθ。
在确定多个文本中任意两个文本之间的文本相似度值之后,执行步骤S206,根据每个文本相对于多个文本中其它文本的文本相似度值,确定对应文本的文本准确度值。最后,根据在多个文本中文本准确度值最高的文本,对目标媒体资源集中的目标媒体资源的文本数据进行处理。其中,目标媒体资源集可以是多个媒体资源集之一,也可以多个媒体资源集之外的媒体资源集。
可选的,步骤S206的一种可选的实施方式为通过统计每个文本相对于多个文本中其它文本的文本相似度值之和,得到对应文本的文本准确度值。
例如,第一文本和第二文本的文本相似度值为cosθ1,第一文本和第三文本的文本相似度值为cosθ2,第二文本和第三文本的文本相似度值为cosθ3,第一文本的文本准确度值为cosθ1+cosθ2,第二文本的文本准确度值为cosθ1+cosθ3,第三文本的文本准确度值的文本准确度值为cosθ2+cosθ3。
可选的,步骤S206的另一种可选的实施方式为:确定每个媒体资源集对应的权重,其中,权重用于表示对应媒体资源集的数据的准确程度,通过权重公式和每个文本相对于多个文本中其它文本的文本相似度值,确定对应文本的文本准确度值。
例如,第一媒体资源集的权重为w1,第二媒体资源集的权重为w2,第三媒体资源集的权重为w3,第一媒体资源集对应的第一文本和第二媒体资源集对应的第二文本的文本相似度值为cosθ1,第一文本和第三媒体资源集对应的第三文本的文本相似度值为cosθ2,第二文本和第三文本的文本相似度值为cosθ3,则第一文本的文本准确度值为w2·cosθ1+w3·cosθ2,第二文本的文本准确度值为w1·cosθ1+w3·cosθ3,第三文本的文本准确度值的文本准确度值为w1·cosθ2+w2·cosθ3。
在确定每个文本的文本准确度值之后,可以确定符合目标条件的文本,例如,选取符合文本准确度值最高的文本、或文本准确度超过目标阈值的文本,基于确定出的符合目标条件的文本对目标媒体资源集中的目标媒体资源的文本数据进行处理(例如,修改、增加、删除等操作)。其中,目标媒体资源集可以是多个媒体资源集之一,也可以不是多个媒体资源集之一,目标媒体资源集中包含目标媒体资源。
在本发明实施例中,通过抓取多个媒体资源集的每个媒体资源集中目标媒体资源的文本数据,计算得到的多个文本中任意两个文本之间的文本相似度值,进而根据每个文本相对于多个文本中其它文本的文本相似度值,确定对应文本的文本准确度值,并根据多个文本中文本准确度值符合目标条件的文本,对在目标媒体资源集中的目标媒体资源的文本数据进行处理。因此,解决了相关技术中对文本数据进行处理的方法效率较低的技术问题。
下面结合一种可选的应用场景对上述实施例的一种具体实施方式进行说明如下:
假设现在抓取了A站点、B站点、C站点、D站点、E站点共五个站点中关于目标电影的目标项的文本数据,每个电影包括标题、导演、演员、时间、标签等多项文本数据,以目标项为标签为例,抓取到每个站点关于目标电影的标签项的文本数据之后,得到五个文本A文本、B文本、C文本、D文本、E文本,每个文本对应于一个站点,五个站点的数据可能有不一致的地方。
现在分别对每个站点的文本进行分词,并进行归一化处理以得到每个文本对应的分词向量,假设对5个文本进行分词之后一共出现过8个词汇,则5个文本对应的分词向量均为8维向量,第j个文本对应的分词向量中第i个元素值用于表示8个词汇中第i个词汇在第j个文本中出现的次数。
采用余弦文本相似度算法计算A文本和B文本的文本相似度值cosθ1:
其中,A文本的分词向量为B文本的分词向量为/>
计算任意两个文本的文本相似度值得到下表:
基于投票的思想,统计每个文本与其它文本的文本相似度值之和,得到每个文本的文本准确度值:
A文本的文本准确度值为cosθ1+cosθ2+cosθ3+cosθ4;
B文本的文本准确度值为cosθ1+cosθ5+cosθ6+cosθ7;
C文本的文本准确度值为cosθ2+cosθ5+cosθ8+cosθ9;
D文本的文本准确度值为cosθ3+cosθ6+cosθ8+cosθ10;
E文本的文本准确度值为cosθ4+cosθ7+cosθ9+cosθ10。
选取文本准确度值最高的一个,认为是本次投票的优胜者,以它的数据为最后的结果。例如,本次B文本分值最高,需要调整的是C站点中目标视频的标签数据,那么以B站点中目标视频的标签数据来清洗、调整C站点中目标视频的标签数据。如果分值最高的文本是C文本,需要调整的是C站点中目标视频的标签数据,则无需对C站点中目标视频的标签数据进行调整。
该具体实施方式采用一种相互投票的方法,基于大部分数据来源是正确的思想,相互投票的结果最后胜出的一方(分值最高的一方)的文本被认为是准确度最高。
通过上述方法,可以使媒体资源集中的数据越来越准确。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
根据本发明实施例的另一个方面,还提供了一种用于实施上述文本数据的处理装置,如图3所示,该装置包括:抓取单元302,第一确定单元304,第二确定单元306和第三确定单元308。
其中,抓取单元,用于抓取多个媒体资源集的每个媒体资源集中目标媒体资源的文本数据,得到多个文本,其中,多个文本与多个媒体资源集一一对应;第一确定单元,用于确定多个文本中任意两个文本之间的文本相似度值;第二确定单元,用于根据每个文本相对于多个文本中其它文本的文本相似度值,确定对应文本的文本准确度值;第三确定单元,用于根据多个文本中文本准确度值符合目标条件的文本,对目标媒体资源集中的目标媒体资源的文本数据进行处理。
在本发明实施例中,通过抓取多个媒体资源集的每个媒体资源集中目标媒体资源的文本数据,计算得到的多个文本中任意两个文本之间的文本相似度值,进而根据每个文本相对于多个文本中其它文本的文本相似度值,确定对应文本的文本准确度值,并根据多个文本中文本准确度值符合目标条件的文本,对在目标媒体资源集中的目标媒体资源的文本数据进行处理。因此,解决了相关技术中对文本数据进行处理的方法效率较低的技术问题。
可选地,在本实施例中,目标条件为文本准确度值超过目标阈值或文本准确度值最高。
可选地,在本实施例中,第二确定单元包括:统计模块,用于统计每个文本相对于多个文本中其它文本的文本相似度值之和,得到对应文本的文本准确度值。
可选地,在本实施例中,第二确定单元包括:第一确定模块,用于确定每个媒体资源集对应的权重,其中,权重用于表示对应媒体资源集的文本数据的准确程度;第二确定模块,用于根据权重公式和每个文本相对于多个文本中其它文本的文本相似度值,确定对应文本的文本准确度值。
可选地,在本实施例中,第一确定单元包括:分词模块,用于对多个文本分别进行分词处理,得到每个文本的分词结果;生成模块,用于根据多个文本的分词结果,生成每个文本的分词向量,其中,每个分词向量的向量维数n为多个文本的分词集合中互不相同的分词的总个数,每个分词向量的各个元素值分别用于表示元素对应的分词在对应文本中出现的次数;第三确定模块,用于通过以下公式确定多个文本中第一文本的分词向量和第二文本的分词向量/>之间的夹角余弦值cosθ,以作为第一文本和第二文本之间的文本相似度值:
可选地,在本实施例中,抓取单元包括:抓取模块,用于抓取多个媒体资源集的每个媒体资源集中目标媒体资源的目标项的文本数据,得到多个文本。
根据本发明的实施例的又一方面,还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,抓取多个媒体资源集的每个媒体资源集中目标媒体资源的文本数据,得到多个文本,其中,多个文本与多个媒体资源集一一对应;
S2,确定多个文本中任意两个文本之间的文本相似度值;
S3,根据每个文本相对于多个文本中其它文本的文本相似度值,确定对应文本的文本准确度值;
S4,根据多个文本中文本准确度值符合目标条件的文本,对目标媒体资源集中的目标媒体资源的文本数据进行处理。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
在根据所述多个文本中文本准确度值符合目标条件的文本,对目标媒体资源集中的所述目标媒体资源的文本数据进行处理的步骤中,目标条件为文本准确度值超过目标阈值或文本准确度值最高。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
根据每个文本相对于多个文本中其它文本的文本相似度值,确定对应文本的文本准确度值包括:统计每个文本相对于多个文本中其它文本的文本相似度值之和,得到对应文本的文本准确度值。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
根据每个文本相对于多个文本中其它文本的文本相似度值,确定对应文本的文本准确度值包括:确定每个媒体资源集对应的权重,其中,权重用于表示对应媒体资源集的文本数据的准确程度;根据权重公式和每个文本相对于多个文本中其它文本的文本相似度值,确定对应文本的文本准确度值。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
确定多个文本中任意两个文本之间的文本相似度值包括:对多个文本分别进行分词处理,得到每个文本的分词结果;根据多个文本的分词结果,生成每个文本的分词向量,其中,每个分词向量的向量维数n为多个文本的分词集合中互不相同的分词的总个数,每个分词向量的各个元素值分别用于表示元素对应的分词在对应文本中出现的次数;通过以下公式确定多个文本中第一文本的分词向量和第二文本的分词向量之间的夹角余弦值cosθ,以作为第一文本和第二文本之间的文本相似度值:
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
抓取多个媒体资源集的每个媒体资源集中目标媒体资源的文本数据,得到多个文本包括:抓取多个媒体资源集的每个媒体资源集中目标媒体资源的目标项的文本数据,得到多个文本。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
根据本发明实施例的又一个方面,还提供了一种用于实施上述文本数据的处理方法的电子装置,如图4所示,该电子装置包括:处理器402、存储器404、显示器406、用户接口408、传输装置410、传感器412等。该存储器中存储有计算机程序,该处理器被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,抓取多个媒体资源集的每个媒体资源集中目标媒体资源的文本数据,得到多个文本,其中,多个文本与多个媒体资源集一一对应;
S2,确定多个文本中任意两个文本之间的文本相似度值;
S3,根据每个文本相对于多个文本中其它文本的文本相似度值,确定对应文本的文本准确度值;
S4,根据多个文本中文本准确度值符合目标条件的文本,对目标媒体资源集中的目标媒体资源的文本数据进行处理。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
在根据所述多个文本中文本准确度值符合目标条件的文本,对目标媒体资源集中的所述目标媒体资源的文本数据进行处理的步骤中,目标条件为文本准确度值超过目标阈值或文本准确度值最高。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
根据每个文本相对于多个文本中其它文本的文本相似度值,确定对应文本的文本准确度值包括:统计每个文本相对于多个文本中其它文本的文本相似度值之和,得到对应文本的文本准确度值。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
根据每个文本相对于多个文本中其它文本的文本相似度值,确定对应文本的文本准确度值包括:确定每个媒体资源集对应的权重,其中,权重用于表示对应媒体资源集的文本数据的准确程度;根据权重公式和每个文本相对于多个文本中其它文本的文本相似度值,确定对应文本的文本准确度值。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
确定多个文本中任意两个文本之间的文本相似度值包括:对多个文本分别进行分词处理,得到每个文本的分词结果;根据多个文本的分词结果,生成每个文本的分词向量,其中,每个分词向量的向量维数n为多个文本的分词集合中互不相同的分词的总个数,每个分词向量的各个元素值分别用于表示元素对应的分词在对应文本中出现的次数;通过以下公式确定多个文本中第一文本的分词向量和第二文本的分词向量之间的夹角余弦值cosθ,以作为第一文本和第二文本之间的文本相似度值:
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
抓取多个媒体资源集的每个媒体资源集中目标媒体资源的文本数据,得到多个文本包括:抓取多个媒体资源集的每个媒体资源集中目标媒体资源的目标项的文本数据,得到多个文本。
可选地,本领域普通技术人员可以理解,图4所示的结构仅为示意,电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图4并不对上述电子装置的结构造成限定。例如,电子装置还可包括比图4中所示更多或者更少的组件(如网络接口等),或者具有与图4所示不同的配置。
其中,存储器404可用于存储软件程序以及模块,如本发明实施例中的文本数据的处理方法和装置对应的程序指令/模块,处理器402通过运行存储在存储器404内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述文本数据的处理方法。存储器404可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器404可进一步包括相对于处理器402远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传感器412可以检测对应类型的传感信号,并将传感信号通过用户接口408输入至处理器402。显示器406用于通过用户接口408接收处理器402发出的显示数据并进行显示。
传输装置410用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置410包括一个网络适配器(NetworkInterface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置410为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (14)

1.一种文本数据的处理方法,其特征在于,包括:
抓取多个媒体资源集的每个媒体资源集中目标媒体资源的文本数据,得到多个文本,其中,所述多个文本与所述多个媒体资源集一一对应;
确定所述多个文本中任意两个文本之间的文本相似度值;
根据每个文本相对于所述多个文本中其它文本的文本相似度值,确定对应文本的文本准确度值;
根据所述多个文本中文本准确度值符合目标条件的文本,对目标媒体资源集中的所述目标媒体资源的文本数据进行处理。
2.根据权利要求1所述的方法,其特征在于,所述目标条件为文本准确度值超过目标阈值或文本准确度值最高。
3.根据权利要求1所述的方法,其特征在于,根据每个文本相对于所述多个文本中其它文本的文本相似度值,确定对应文本的文本准确度值包括:
统计每个文本相对于所述多个文本中其它文本的文本相似度值之和,得到对应文本的文本准确度值。
4.根据权利要求1所述的方法,其特征在于,根据每个文本相对于所述多个文本中其它文本的文本相似度值,确定对应文本的文本准确度值包括:
确定每个媒体资源集对应的权重,其中,所述权重用于表示对应媒体资源集的文本数据的准确程度;
根据权重公式和每个文本相对于所述多个文本中其它文本的文本相似度值,确定对应文本的文本准确度值。
5.根据权利要求1所述的方法,其特征在于,确定所述多个文本中任意两个文本之间的文本相似度值包括:
对所述多个文本分别进行分词处理,得到每个文本的分词结果;
根据所述多个文本的分词结果,生成每个文本的分词向量,其中,每个分词向量的向量维数n为所述多个文本的分词集合中互不相同的分词的总个数,每个分词向量的各个元素值分别用于表示元素对应的分词在对应文本中出现的次数;
通过以下公式确定所述多个文本中第一文本的分词向量和第二文本的分词向量/>之间的夹角余弦值cosθ,以作为所述第一文本和所述第二文本之间的文本相似度值:
6.根据权利要求1所述的方法,其特征在于,抓取多个媒体资源集的每个媒体资源集中目标媒体资源的文本数据,得到多个文本包括:
抓取多个媒体资源集的每个媒体资源集中目标媒体资源的目标项的文本数据,得到多个文本。
7.一种文本数据的处理装置,其特征在于,包括:
抓取单元,用于抓取多个媒体资源集的每个媒体资源集中目标媒体资源的文本数据,得到多个文本,其中,所述多个文本与所述多个媒体资源集一一对应;
第一确定单元,用于确定所述多个文本中任意两个文本之间的文本相似度值;
第二确定单元,用于根据每个文本相对于所述多个文本中其它文本的文本相似度值,确定对应文本的文本准确度值;
第三确定单元,用于根据所述多个文本中文本准确度值符合目标条件的文本,对目标媒体资源集中的所述目标媒体资源的文本数据进行处理。
8.根据权利要求7所述的装置,其特征在于,所述目标条件为文本准确度值超过目标阈值或文本准确度值最高。
9.根据权利要求7所述的装置,其特征在于,所述第二确定单元包括:
统计模块,用于统计每个文本相对于所述多个文本中其它文本的文本相似度值之和,得到对应文本的文本准确度值。
10.根据权利要求7所述的装置,其特征在于,所述第二确定单元包括:
第一确定模块,用于确定每个媒体资源集对应的权重,其中,所述权重用于表示对应媒体资源集的文本数据的准确程度;
第二确定模块,用于根据权重公式和每个文本相对于所述多个文本中其它文本的文本相似度值,确定对应文本的文本准确度值。
11.根据权利要求7所述的装置,其特征在于,所述第一确定单元包括:
分词模块,用于对所述多个文本分别进行分词处理,得到每个文本的分词结果;
生成模块,用于根据所述多个文本的分词结果,生成每个文本的分词向量,其中,每个分词向量的向量维数n为所述多个文本的分词集合中互不相同的分词的总个数,每个分词向量的各个元素值分别用于表示元素对应的分词在对应文本中出现的次数;
第三确定模块,用于通过以下公式确定所述多个文本中第一文本的分词向量和第二文本的分词向量/>之间的夹角余弦值cosθ,以作为所述第一文本和所述第二文本之间的文本相似度值:
12.根据权利要求7所述的装置,其特征在于,所述抓取单元包括:
抓取模块,用于抓取多个媒体资源集的每个媒体资源集中目标媒体资源的目标项的文本数据,得到多个文本。
13.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至6任一项中所述的方法。
14.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至6任一项中所述的方法。
CN201810444924.9A 2018-05-10 2018-05-10 文本数据的处理方法和装置、以及存储介质和电子装置 Active CN110196920B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810444924.9A CN110196920B (zh) 2018-05-10 2018-05-10 文本数据的处理方法和装置、以及存储介质和电子装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810444924.9A CN110196920B (zh) 2018-05-10 2018-05-10 文本数据的处理方法和装置、以及存储介质和电子装置

Publications (2)

Publication Number Publication Date
CN110196920A CN110196920A (zh) 2019-09-03
CN110196920B true CN110196920B (zh) 2024-02-09

Family

ID=67751034

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810444924.9A Active CN110196920B (zh) 2018-05-10 2018-05-10 文本数据的处理方法和装置、以及存储介质和电子装置

Country Status (1)

Country Link
CN (1) CN110196920B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110597980B (zh) * 2019-09-12 2021-04-30 腾讯科技(深圳)有限公司 一种数据处理方法、装置以及计算机可读存储介质
CN111026840B (zh) * 2019-11-26 2023-10-13 腾讯科技(深圳)有限公司 文本处理方法、装置、服务器和存储介质
CN112380344B (zh) * 2020-11-19 2023-08-22 平安科技(深圳)有限公司 文本分类的方法、话题生成的方法、装置、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104965853A (zh) * 2015-05-11 2015-10-07 腾讯科技(深圳)有限公司 聚合类应用的推荐、多方推荐源聚合的方法、系统和装置
CN107908796A (zh) * 2017-12-15 2018-04-13 广州市齐明软件科技有限公司 电子政务查重方法、装置以及计算机可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3026584A1 (en) * 2014-11-25 2016-06-01 Samsung Electronics Co., Ltd. Device and method for providing media resource

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104965853A (zh) * 2015-05-11 2015-10-07 腾讯科技(深圳)有限公司 聚合类应用的推荐、多方推荐源聚合的方法、系统和装置
CN107908796A (zh) * 2017-12-15 2018-04-13 广州市齐明软件科技有限公司 电子政务查重方法、装置以及计算机可读存储介质

Also Published As

Publication number Publication date
CN110196920A (zh) 2019-09-03

Similar Documents

Publication Publication Date Title
CN110196920B (zh) 文本数据的处理方法和装置、以及存储介质和电子装置
CN103166917B (zh) 网络设备身份识别方法及系统
CN111401416B (zh) 异常网站的识别方法、装置和异常对抗行为的识别方法
KR101715036B1 (ko) 객체 인식을 통한 상품 분류 검색 및 쇼핑 정보 제공 서비스 방법, 서버 및 시스템
US20130042306A1 (en) Determining machine behavior
CN108768753B (zh) 告警源的定位方法、装置、存储介质及电子装置
WO2017113576A1 (zh) 图像处理方法、系统、图像采集设备及服务器
US20180025064A1 (en) System and method for synchronizing identifiers associated with users
CN107784504B (zh) 客户回访事件的生成方法及终端设备
CN111461620B (zh) 一种基于区块链物流数据分布式存储方法及装置
CN108154031B (zh) 伪装应用程序的识别方法、装置、存储介质和电子装置
CN108306886B (zh) 一种身份验证方法、装置及存储介质
CN107480277A (zh) 用于网站日志采集的方法及装置
JP5808371B2 (ja) 画像認識装置、画像認識方法及び画像認識プログラム
CN105404631B (zh) 图片识别方法和装置
CN106569860A (zh) 一种应用管理方法及终端
CN111540020B (zh) 目标行为的确定方法及装置、存储介质、电子装置
EP3151150B1 (en) System and method for detection of phishing scripts
CN110659807A (zh) 一种基于链路的风险用户识别方法及装置
CN111860071A (zh) 用于识别物品的方法和装置
CN109886300A (zh) 一种用户聚类方法、装置及设备
CN104778389A (zh) 一种数值转移方法、终端、服务器及系统
CN110677448A (zh) 关联信息推送方法、装置和系统
CN117040827A (zh) 异常帐号的检测方法和装置、存储介质及电子设备
CN111898529B (zh) 脸部检测方法、装置、电子设备和计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant