CN115796164A - 数据收集、文本识别方法、装置、设备及存储介质 - Google Patents

数据收集、文本识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115796164A
CN115796164A CN202211505477.6A CN202211505477A CN115796164A CN 115796164 A CN115796164 A CN 115796164A CN 202211505477 A CN202211505477 A CN 202211505477A CN 115796164 A CN115796164 A CN 115796164A
Authority
CN
China
Prior art keywords
data
user
original
comparison
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211505477.6A
Other languages
English (en)
Inventor
汪健
曹红兵
邹静
龙美元
段朋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Changan Automobile Co Ltd
Original Assignee
Chongqing Changan Automobile Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Changan Automobile Co Ltd filed Critical Chongqing Changan Automobile Co Ltd
Priority to CN202211505477.6A priority Critical patent/CN115796164A/zh
Publication of CN115796164A publication Critical patent/CN115796164A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本申请提供一种数据收集、文本识别方法、装置、设备及存储介质,该数据收集方法通过获取用户的社区发布数据,将该社区发布数据与用户自身的用户数据集中的原有用户数据进行第一比对,将第一比对成功的原有用户数据确定为第一识别数据,再将剩余的社区发布数据,也即第一比对失败的社区发布数据与预设总数据集进行第二比对,将第二比对成功的原有历史数据确定为第二识别数据,统计第一识别数据的当前出现频次和第二识别数据的当前出现频次,将当前出现频次大于出现频次阈值的第二识别数据添加至用户数据集,以收集用户的用户数据,对于单一用户的针对性强,当应用该数据收集方式得到的用户数据集进行文本识别时,文本识别的准确性高,针对性好。

Description

数据收集、文本识别方法、装置、设备及存储介质
技术领域
本发明实施例涉及计算机技术领域,具体涉及一种数据收集、文本识别方法、装置、设备及存储介质。
背景技术
近年来,随着智能手机等设备的普及,众多社交平台的兴起,越来越多的人选择在互联网上发布个人的想法。随着智能网联汽车业务的发展,主机厂也将提供多元的开放平台,该开放平台可以提供设计、开发、验证、测试、心得交流等一站式服务,使广大开发者既能充分享受原子化、标准开放的优势,又能兼顾稳定、安全的需求。为开放平台的长久健康运行,需要对发表的文章和评论等内容进行审核,确保文章和评论的内容不违反法律法规及社会公德。
但开放平台上的涉及的数据较为复杂,包括但不限于图片、文字等。审核时需要对文本进行识别。此时,文本识别的准确性就显得格外重要。但相关技术中的文本识别往往对于个体的适用性不佳,准确性不高,因此,亟需对个体用户的数据收集方式,以提升个体的用户数据的针对性和准确性。
发明内容
鉴于以上所述现有技术的缺点,本发明实施例提供一种数据收集方法、装置、设备及存储介质,以解决上述技术问题。
本发明实施例提供的数据收集方法,所述方法包括:获取用户的社区发布数据;对所述社区发布数据与所述用户的用户数据集进行第一比对,将第一比对成功的所述用户数据集中的原有用户数据确定为第一识别数据,所述用户数据集包括多个原有用户数据和原有用户数据出现频次;对第一比对失败的所述社区发布数据与预设总数据集进行第二比对,将第二比对成功的所述预设总数据集中的原有历史数据确定为第二识别数据,所述预设总数据集包括多个原有历史数据和原有历史数据出现频次;基于所述原有用户数据出现频次和所述原有历史数据出现频次,统计所述第一识别数据的当前出现频次和所述第二识别数据的当前出现频次;将所述第二识别数据的当前出现频次大于出现频次阈值的所述第二识别数据添加至所述用户数据集,以收集所述用户的用户数据。
于本发明一实施例中,对第一比对失败的所述社区发布数据与预设总数据集进行第二比对之后,基于所述原有用户数据出现频次和所述原有历史数据出现频次统计所述第一识别数据的当前出现频次和所述第二识别数据的当前出现频次之前,所述数据收集方法还包括:对第二比对失败的所述社区发布数据进行文本识别;将文本识别的识别结果添加至所述预设总数据集,以及将所述识别结果确定为所述第二识别数据。
于本发明一实施例中,所述原有用户数据包括历史发布数据和所述历史发布数据的历史用户识别结果,对所述社区发布数据与所述用户的用户数据集进行第一比对,将第一比对成功的所述用户数据集中的原有用户数据确定为第一识别数据包括:将所述社区发布数据与所述历史发布数据进行第一比对;若所述社区发布数据与所述历史发布数据的第一相似度大于第一预设相似度阈值,将所述第一比对结果确定为第一比对成功;将所述第一相似度大于第一预设相似度阈值的历史发布数据的历史用户识别结果确定为所述第一识别数据。
于本发明一实施例中,所述原有历史数据包括原有发布数据和所述原有发布数据的原有识别结果,第一比对失败的所述社区发布数据与预设总数据集进行第二比对,将第二比对成功的所述预设总数据集中的原有历史数据确定为第二识别数据包括:将所述社区发布数据与所述原有发布数据进行第二比对;若所述社区发布数据与所述原有发布数据的第二相似度大于第二预设相似度阈值,将所述第二比对结果确定为第二比对成功;将所述第二相似度大于第二预设相似度阈值的原有发布数据的原有识别结果确定为所述第二识别数据。
于本发明一实施例中,对第一比对失败的所述社区发布数据与预设总数据集进行第二比对之前,所述数据收集方法还包括:获取多个用户的用户数据集;基于多个所述用户数据集生成所述预设总数据集,所述原有历史数据基于各所述用户数据集的所述原有用户数据确定。
于本发明一实施例中,将所述第二识别数据的当前出现频次大于出现频次阈值的所述第二识别数据添加至所述用户数据集包括:关联所述原有识别结果、所述社区发布数据和所述第二识别数据的当前出现频次,并添加至所述用户数据集。
于本发明一实施例中,将所述第二识别数据的当前出现频次大于出现频次阈值的所述第二识别数据添加至所述用户数据集包括:获取所述第二识别数据对应的所述原有历史数据的数据存储信息;将所述数据存储信息添加至所述用户数据集。
于本发明一实施例中,将文本识别的识别结果添加至所述预设总数据集之前,所述方法还包括:获取预设禁用文本集;将所述预设禁用文本集与所述文本识别的识别结果进行禁用比对;若所述识别结果通过所述禁用比对,将通过的所述识别结果添加至所述预设总数据集。
于本发明一实施例中,将所述第二识别数据的当前出现频次大于出现频次阈值的所述第二识别数据添加至所述用户数据集之后,所述方法还包括以下至少之一:基于所述用户数据集中的原有用户数据出现频次确定所述用户的用户喜好数据,所述用户喜好数据包括至少一个原有用户数据;基于所述预设总数据集中原有历史数据出现频次确定社区的社区喜好数据,所述社区喜好信息包括至少一个所述原有历史数据。
于本发明一实施例中,将所述第二识别数据的当前出现频次大于出现频次阈值的所述第二识别数据添加至所述用户数据集之前,所述数据收集方法还包括:
对所述第一识别数据的当前出现频次和所述第二识别数据的当前出现频次进行排序;
将排序值为预设次序值的所述第一识别数据的当前出现频次或所述第二识别数据的当前出现频次确定为所述出现频次阈值。本发明实施例提供的一种文本识别方法,所述文本识别方法包括:获取用户的待识别社区数据;将所述待识别社区数据与所述用户的用户数据集进行第三比对,将第三比对成功的所述用户数据集中原有用户数据确定为第三识别数据,所述用户数据集中原有用户数据通过如上述任一项实施例所述的数据收集方法收集;对第三比对失败的所述待识别社区数据与预设总数据集进行第四比对,将第四比对成功的所述预设总数据集中的原有历史数据确定为第四识别数据,所述预设总数据集包括多个用户的用户数据集;基于所述第三识别数据和所述第四识别数据生成所述待识别社区数据的文本识别结果。
本发明实施例提供的一种数据收集装置,所述数据收集装置包括:获取模块,用于获取用户的社区发布数据;第一比对模块,用于对所述社区发布数据与所述用户的用户数据集进行第一比对,将第一比对成功的所述用户数据集中的原有用户数据确定为第一识别数据,所述用户数据集包括多个原有用户数据和原有用户数据出现频次;第二比对模块,用于对第一比对失败的所述社区发布数据与预设总数据集进行第二比对,将第二比对成功的所述预设总数据集中的原有历史数据确定为第二识别数据,所述预设总数据集包括多个原有历史数据和原有历史数据出现频次;统计模块,用于基于所述原有用户数据出现频次和所述原有历史数据出现频次,统计所述第一识别数据的当前出现频次和所述第二识别数据的当前出现频次;确定模块,用于将所述第二识别数据的当前出现频次大于出现频次阈值的所述第二识别数据添加至所述用户数据集,以收集所述用户的用户数据。
本发明实施例提供的一种电子设备,所述电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现上述任一项实施例所述的方法。
本发明实施例提供的一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序被计算机的处理器执行时,使计算机执行上述任一项实施例所述的方法。
本发明实施例的有益效果:本发明实施例中的数据收集、文本识别方法、装置、设备及存储介质,该数据收集方法通过获取用户的社区发布数据,将该社区发布数据与用户自身的用户数据集中的原有用户数据进行第一比对,将第一比对成功的原有用户数据确定为第一识别数据,再将剩余的社区发布数据,也即第一比对失败的社区发布数据与预设总数据集进行第二比对,将第二比对成功的原有历史数据确定为第二识别数据,统计第一识别数据的当前出现频次和第二识别数据的当前出现频次,将当前出现频次大于出现频次阈值的第二识别数据添加至用户数据集,以收集用户的用户数据,对于单一用户的针对性强,当应用该数据收集方式得到的用户数据集进行文本识别时,文本识别的准确性高,针对性好。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术者来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是本申请的一示例性实施例示出的数据收集方法的流程图;
图2是本申请的一示例性实施例示出的一种具体的数据收集方法的流程图;
图3是本申请的一示例性实施例示出的文本识别方法的流程图;
图4是本申请的一示例性实施例示出的数据收集装置的框图;
图5是本申请的一示例性实施例示出的文本识别装置的框图;
图6是本申请的一示例性实施例示出的文本识别装置的框图;
图7示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
以下将参照附图和优选实施例来说明本发明的实施方式,本领域技术人员可由本说明书中所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。应当理解,优选实施例仅为了说明本发明,而不是为了限制本发明的保护范围。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
在下文描述中,探讨了大量细节,以提供对本发明实施例的更透彻的解释,然而,对本领域技术人员来说,可以在没有这些具体细节的情况下实施本发明的实施例是显而易见的,在其他实施例中,以方框图的形式而不是以细节的形式来示出公知的结构和设备,以避免使本发明的实施例难以理解。
近年来,随着智能手机等设备的普及,众多社交平台的兴起,越来越多的人选择在互联网上发布个人的想法。随着智能网联汽车业务的发展,主机厂提供的能力众多,与外部生态的合作也更加频繁,通过创建开放平台为主机厂实现统一、完全、稳定、高效的对外提供能力,对生态资源进行统筹管理。主机厂也将提供多元的开放平台,该开放平台可以提供设计、开发、验证、测试、心得交流等一站式服务,使广大开发者既能充分享受原子化、标准开放的优势,又能兼顾稳定、安全的需求。为开放平台的长久健康运行,需要对发表的文章和评论等内容进行审核,确保文章和评论的内容不违反法律法规及社会公德。
但开放平台上的涉及的数据较为复杂,包括但不限于图片、文字等。审核时需要对文本进行识别。此时,文本识别的准确性就显得格外重要。但相关技术中的文本识别往往对于个体的适用性不佳,准确性不高,因此,亟需对个体用户的数据收集方式,以提升个体的用户数据的针对性和准确性。
为解决上述问题,本申请的实施例分别提出一种数据收集方法、一种数据收集装置、一种文本识别方法、一种电子设备、一种计算机可读存储介质以及一种计算机程序产品,以下将对这些实施例进行详细描述。
请参阅图1,图1是本申请的一示例性实施例示出的数据收集方法的流程图。该方法可以通过本领域技术人员所知晓的实施环境执行。如图1所示,在一示例性的实施例中,该数据收集方法至少包括步骤S101至步骤S105,详细介绍如下:
步骤S101,获取用户的社区发布数据。
用户可以是使用开放平台的工程师、开发者、普通网友等在开放平台发布公开内容的对象。社区发布数据为发布在开放平台的公开内容,该社区发布数据包括但不限于公开发布的评论、帖子、图片、视频等中至少之一。社区发布数据中能够提取和/或识别得到文本数据。
该方法可以通过服务器或客户端,或者服务器与客户端配合实现。
社区发布数据的获取之前,需要征得相关人员以及相关部门的同意,以合理合法的方式和渠道获取。
其中,社区发布数据可以是一项内容或多项内容。
步骤S102,对社区发布数据与用户的用户数据集进行第一比对,将第一比对成功的用户数据集中的原有用户数据确定为第一识别数据。
其中,用户数据集包括多个原有用户数据和原有用户数据出现频次。由于人们对于某一类事件的评论往往是有一定的观点的,该观点往往具有统一性,或者人们往往有其常用语,或者口头禅,惯用图片等,这些内容往往会不断的由用户发布在开放平台上,通过将这部分内容数据进行收集作为原有用户数据添加到用户数据集中,并且记录该原有用户数据出现的频次,能够便于后续对该用户的习惯、喜好进行分析。可以直接将图片的出现次数作为原有用户数据出现频次,也可以将文字或图像的文字识别结果作为原有用户数据出现频次。不同的图片可能所识别得到的文字识别结果相同,此时原有用户数据出现频次则可以累积在一起。此时,基于相同的文字识别结果,以及得到该文字识别结果的社区发布数据、原有用户数据出现频次生成原有用户数据。
用户数据集在初始阶段为空集,此时第一比对为不成功。
由于社区发布数据中可能存在多项内容,如多张图片、多段文字等,此时,可能存在至少一个原有用户数据与社区发布数据的一部分相同,则可以将该原有用户数据中的历史用户识别结果确定为第一识别数据。第二识别数据与第一识别数据的确定原理类似,后续不做赘述。
由于社区发布数据可能存在文字、图片等形式,此时也可以基于社区发布数据的类型在原有用户数据中找到对应的类型进行第一比对,以减少比对次数,降低资源占用。
在一实施例中,原有用户数据包括历史发布数据和历史发布数据的历史用户识别结果,对社区发布数据与用户的用户数据集进行第一比对,将第一比对成功的用户数据集中的原有用户数据确定为第一识别数据包括:
将社区发布数据与历史发布数据进行第一比对;
若社区发布数据与历史发布数据的第一相似度大于第一预设相似度阈值,将第一比对结果确定为第一比对成功;
将第一相似度大于第一预设相似度阈值的历史发布数据的历史用户识别结果确定为第一识别数据。
其中,历史用户识别结果为历史发布数据的文本识别结果。
通过上述方式,不需要每一次都进行文本识别,对于之前当前用户自身完成识别的内容,则直接使用历史的识别内容(历史用户识别结果)即可,节约的文本识别的时间,降低了资源占用。
步骤S103,对第一比对失败的社区发布数据与预设总数据集进行第二比对,将第二比对成功的预设总数据集中的原有历史数据确定为第二识别数据。
预设总数据集可以为包括有多个用户的用户数据集的集合。预设总数据集在初始阶段为空集,此时第二比对为不成功。
步骤S104,基于原有用户数据出现频次和原有历史数据出现频次统计第一识别数据的当前出现频次和第二识别数据的当前出现频次。
其中,原有用户数据出现频次为该用户的历史社区发布数据中,该历史发布数据的出现次数,原有历史数据出现频次为该社区中各用户的历史社区发布数据中原有发布数据的总的出现次数,如用户A历史发布数据1出现5次,用户B历史发布数据1出现9次,在总数据集中,该历史发布数据称为原有发布数据,其原有历史数据出现频次为14次。
又例如,本次社区发布数据中第一识别数据对应的原有用户数据出现频次为2词,本次社区发布数据中,第一识别数据出现了3次,则统计后的第一识别数据的当前出现频次为5次,第二识别数据的当前出现频次与此类似,在此不做赘述。
又例如,用户发布的社区发布数据存在两张相同的图片,进行文本识别后的识别结果为“开心”,在用户数据集中,存在该图片的原有用户数据的原有用户数据出现频次为3次,此时,第一识别数据的当前出现频次为5次。
在一实施例中,对第一比对失败的社区发布数据与预设总数据集进行第二比对之后,基于原有用户数据出现频次和原有历史数据出现频次统计第一识别数据的当前出现频次和第二识别数据的当前出现频次之前,数据收集方法还包括:
对第二比对失败的社区发布数据进行文本识别;
将文本识别的识别结果添加至预设总数据集,以及将识别结果确定为第二识别数据。
如上述所述,预设总数据集可以为包括有多个用户的用户数据集的集合,则将文本识别的识别结果添加至预设总数据集时,可以将该识别结果存储在预设总数据集中的预设暂存子集,该预设暂存子集不属于任何用户,仅用于存储识别结果,待该社区发布数据的数据收集结束后,清空该预设暂存子集。这样能够节约存储空间。
在一实施例中,对第一比对失败的社区发布数据与预设总数据集进行第二比对之前,数据收集方法还包括:
获取多个用户的用户数据集;
基于多个用户数据集生成预设总数据集,原有历史数据基于各用户数据集的原有用户数据确定。
也即,原有历史数据与原有用户数据是一致的,为表述方便,当该数据在不同数据集描述语境下,采用不同的名称。
在一实施例中,原有历史数据包括原有发布数据和原有发布数据的原有识别结果,第一比对失败的社区发布数据与预设总数据集进行第二比对,将第二比对成功的预设总数据集中的原有历史数据确定为第二识别数据包括:
将社区发布数据与原有发布数据进行第二比对;
若社区发布数据与原有发布数据的第二相似度大于第二预设相似度阈值,将第二比对结果确定为第二比对成功;
将第二相似度大于第二预设相似度阈值的原有发布数据的原有识别结果确定为第二识别数据。
由于社区发布数据中可能存在多项内容,如多张图片、多段文字等,此时,可能存在至少一个原有发布数据与社区发布数据的一部分相同,则可以将该原有发布数据中的原有识别结果确定为第二识别数据。
其中,原有识别结果为原有发布数据的文本识别结果。
通过上述方式,不需要每一次都进行文本识别,对于之前其他用户完成识别的内容,则直接使用历史的识别内容(原有识别结果)即可,节约的文本识别的时间,降低了资源占用。
步骤S105,将第二识别数据的当前出现频次大于出现频次阈值的第二识别数据添加至用户数据集,以收集用户的用户数据。
其中,出现频次阈值根据第一识别数据的当前出现频次和第二识别数据的当前出现频次确定。
在一实施例中,将第二识别数据的当前出现频次大于出现频次阈值的第二识别数据添加至用户数据集之前,该数据收集方法还包括:
对第一识别数据的当前出现频次和第二识别数据的当前出现频次进行排序;
将排序值为预设次序值的第一识别数据的当前出现频次或第二识别数据的当前出现频次确定为出现频次阈值。
例如,对第一识别数据的当前出现频次和第二识别数据的当前出现频次进行从高到低排序,将排序为X的第一识别数据或第二识别数据的当前出现频次确定为出现频次阈值,也即,将排序前n%的第一识别数据添加至用户数据集。X的确定可以根据第一识别数据的当前出现频次和第二识别数据的数据数量来确定,比如,数据数量为10,X取4。
通过将用户数据集中不存在的、该用户新发布的社区发布数据增加到用户数据集中,能够丰富用户数据集的数据种类,便于后续基于用户的用户数据集,分析用户的语言习惯,能够提升对该用户的社区发布数据的文本识别速度。
在一实施例中,将第二识别数据的当前出现频次大于出现频次阈值的第二识别数据添加至用户数据集包括:
关联原有识别结果、社区发布数据和第二识别数据的当前出现频次,并添加至用户数据集。
也即,将其他的用户的用户数据集中的原有识别结果,与当前的用户端额社区发布数据,和更新后的第二识别数据的当前出现频次,进行关联,存储于用户数据集中,供后续使用。
在一实施例中,将第二识别数据的当前出现频次大于出现频次阈值的第二识别数据添加至用户数据集包括:
获取第二识别数据对应的原有历史数据的数据存储信息;
将数据存储信息添加至用户数据集。
数据存储信息可以为原有历史数据的链接,地址等。这样可以避免重复进行第二识别数据的存储,节约总体的数据存储空间。
在一实施例中,将文本识别的识别结果添加至预设总数据集之前,该方法还包括:
获取预设禁用文本集;
将预设禁用文本集与文本识别的识别结果进行禁用比对;
若识别结果通过禁用比对,将通过的识别结果添加至预设总数据集。
若识别结果不通过禁用比对,则不将该识别结果添加到预设总数据集,还可以对此发出提醒,或者累计识别结果的被识别次数,当到达一定次数时,则提示社区管理人员发布相关公告,明确禁用词的使用。
预设禁用文本集也可以为预设总数据集的一个子集。
在一实施例中,将第二识别数据的当前出现频次大于出现频次阈值的第二识别数据添加至用户数据集之后,该方法还包括以下至少之一:
基于用户数据集中的原有用户数据出现频次确定用户的用户喜好数据,用户喜好数据包括至少一个原有用户数据;
基于预设总数据集中原有历史数据出现频次确定社区的社区喜好数据,社区喜好信息包括至少一个原有历史数据。
例如,可以将原有用户数据出现频次超出一定阈值的原有用户数据确定为用户喜好数据,将原有历史数据出现频次超出一定阈值的原有历史数据确定为社区喜好数据。
通过社区喜好数据和用户喜好数据能够便于运营人员和社区管理人员对社区的讨论热度进行分析了解。
用户数据集可以存储于每个用户的用户数据库中,预设总数据集可以存储与预设的总数据库中,用户可以预先设置有用户识别信息,以分辨社区发布数据的来源用户。
下面,通过一示例性的实施例示例的说明本申请的数据收集方法,请参阅图2,图2是本申请的一示例性实施例示出的一种具体的数据收集方法的流程图。如图2所示,通过预先创建总的文本数据库(总数据库),以及对社区的使用者,如开发者等进行身份标识信息的赋予,如对各个开发者进行编号,建立单独的文本数据库(用户数据库)与各个开发者进行绑定。获取社区内部的数据(社区发布数据,也即图中的客户数据),并将数据记录与其发布的开发者之间进行绑定。确定该社区发布数据是哪一个开发者(用户)所发布的数据,标记用户,得到标记有用户信息的社区发布数据。先将社区发布数据与开发者的文本数据库进行第一对比识别(也即图中的对比分析),将识别出的第一文本(第一识别数据,识别数据1)进行保存,并去除已经识别出的数据,再将剩余数据(第一比对失败的社区发布数据,未识别数据)与总的文本数据库进行第二对比,将数据中的文本(第二识别数据,识别数据2)识别出,并将社区发布数据(与第二识别数据对应的部分社区发布数据)与识别出的文本之间进行绑定,并对文本的数量进行分类统计,将相同的文本归于一组;从分类好的文本中取出出现数量较高的文本,并将文本记录于开发者单独文数据本库。
其中,总的文本数据库,也即总数据库中包括“图片-文本”,“文本-文本”,其中“文本-文本”包含多种语言。
总的文本数据库中还包括禁止数据库,禁止数据库包含预设禁用文本集,预设禁用文本集包括但不限于违反国家规定的法律法规的数据以及低俗语言等。
上述实施例提供了一种数据收集方法,通过获取用户的社区发布数据,将该社区发布数据与用户自身的用户数据集中的原有用户数据进行第一比对,将第一比对成功的原有用户数据确定为第一识别数据,再将剩余的社区发布数据,也即第一比对失败的社区发布数据与预设总数据集进行第二比对,将第二比对成功的原有历史数据确定为第二识别数据,统计第一识别数据的当前出现频次和第二识别数据的当前出现频次,将当前出现频次大于出现频次阈值的第二识别数据添加至用户数据集,以收集用户的用户数据,对于单一用户的针对性强,当应用该数据收集方式得到的用户数据集进行文本识别时,文本识别的准确性高,针对性好。
请参阅图3,图3是本申请的一示例性实施例示出的文本识别方法的流程图。该方法可以通过本领域技术人员所知晓的实施环境执行。如图3所示,在一示例性的实施例中,该文本识别方法至少包括步骤S301至步骤S304,详细介绍如下:
步骤S301,获取用户的待识别社区数据。
待识别社区数据与上述实施例中的社区发布数据类似,可以为用户新发布的社区发布数据,在此不做赘述。
步骤S302,将待识别社区数据与用户的用户数据集进行第三比对,将第三比对成功的用户数据集中原有用户数据确定为第三识别数据。
其中,用户数据集中原有用户数据通过如上述任一项实施例所述的数据收集方法收集,在此不做赘述,其相关的有益效果也可以参考上述实施例,在此不做赘述。
该步骤的实现可参考上述实施例的步骤S102的实现,在此不做赘述。
步骤S303,对第三比对失败的待识别社区数据与预设总数据集进行第四比对,将第四比对成功的预设总数据集中的原有历史数据确定为第四识别数据。
预设总数据集包括多个用户的用户数据集。
该步骤的实现可参考上述实施例的步骤S103的实现,在此不做赘述。
步骤S304,基于第三识别数据和第四识别数据生成待识别社区数据的文本识别结果。
若仍然存在没有识别到的待识别社区数据,则可以再采用本领域技术人员所知晓的方式进行识别,以确保识别的完整性。
通过上述方式可以在用户自身的用户数据集和社区的总数据集中,预先进行对用户所发布的待检测社区数据进行文本识别,针对性更佳、速度更快、成本低。
图4是本申请的一示例性实施例示出的数据收集装置的框图。如图4所示,该示例性的数据收集装置400包括:
第一获取模块401,用于获取用户的社区发布数据;
第一比对模块402,用于对社区发布数据与用户的用户数据集进行第一比对,将第一比对成功的用户数据集中的原有用户数据确定为第一识别数据,用户数据集包括多个原有用户数据和原有用户数据出现频次;
第二比对模块403,用于对第一比对失败的社区发布数据与预设总数据集进行第二比对,将第二比对成功的预设总数据集中的原有历史数据确定为第二识别数据,预设总数据集包括多个原有历史数据和原有历史数据出现频次;
统计模块404,用于基于原有用户数据出现频次和原有历史数据出现频次统计第一识别数据的当前出现频次和第二识别数据的当前出现频次;
确定模块405,用于将第二识别数据的当前出现频次大于出现频次阈值的第二识别数据添加至用户数据集,以收集用户的用户数据。
需要说明的是,上述实施例所提供的数据收集装置与上述实施例图2所提供的数据收集方法属于同一构思,其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述,此处不再赘述。上述实施例所提供的数据收集装置在实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能,本处也不对此进行限制。
图5是本申请的一示例性实施例示出的文本识别装置的框图。如图5所示,该示例性的文本识别装置500包括:
第二获取模块501,用于获取用户的待识别社区数据;
第三比对模块502,用于将待识别社区数据与用户的用户数据集进行第三比对,将第三比对成功的用户数据集中原有用户数据确定为第三识别数据,用户数据集中原有用户数据通过如权利要求1-9任一项的数据收集方法收集;
第四比对模块503,用于对第三比对失败的待识别社区数据与预设总数据集进行第四比对,将第四比对成功的预设总数据集中的原有历史数据确定为第四识别数据,预设总数据集包括多个用户的用户数据集;
生成模块504,用于基于第三识别数据和第四识别数据生成待识别社区数据的文本识别结果。
需要说明的是,上述实施例所提供的文本识别装置与上述实施例图3所提供的文本识别方法属于同一构思,其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述,此处不再赘述。上述实施例所提供的文本识别装置在实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能,本处也不对此进行限制。
下面通过另一个示例性的使用场景对本发明实施例提供的文本识别方法的应用装置进行示例性的说明。参见图6,图6是本申请的一示例性实施例示出的文本识别装置的框图。如图6所示,该文本识别装置包括:
储存单元,用于保存现有的“图像-文本”的总数据库以及用户的个人数据库。也即,用于保存用户数据集和预设总数据集等。
数据采集单元,通过数据采集单元对用户的数据进行采集,如对待识别社区数据进行采集。
标记单元,将采集的数据标记上用户的信息,也即,区别该待识别社区数据是分属于哪一个用户。
对比单元,通过对比单元将采集的数据与储存单元上的个人数据库对比,再与总数据库进行对比,也即将待识别社区数据与用户的用户数据集进行第三比对,将第三比对成功的用户数据集中原有用户数据确定为第三识别数据。
再处理单元,用于对第三比对失败的待识别社区数据与预设总数据集进行第四比对,将第四比对成功的预设总数据集中的原有历史数据确定为第四识别数据。
通过第三识别数据和第四识别数据生成待识别社区数据的文本识别结果。
统计单元,通过统计单元对对比后的数据以及文本进行统计,也即,基于原有用户数据出现频次和原有历史数据出现频次统计第三识别数据和第四识别数据的当前出现频次,将第三识别数据的当前出现频次大于出现频次阈值的第四识别数据添加至用户数据集,以收集用户的用户数据。
再处理单元还用于将识别出的数据与未识别的数据进行分离。
通过上述文本识别装置,根据用户的个人习惯,收集用户的经常使用的文本,通过文本对应的数据进行记录,使得后续对用户的数据进行分析时,可较快的将用户数据中的高频文本识别出,加快数据的识别速度。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,多个模块、单元、组件可以结合或者可以集成到另一个装置或系统,或一些特征可以忽略,或不执行。
本申请中所记载的或者隐含包括的通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
分离部件说明的模块或单元物理上是否分开并不在此限定,具有显示功能的部件可以为物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元或模块来实现本实施例方案的目的。
本申请的实施例还提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现上述各个实施例中提供的方法。
图7示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。需要说明的是,图7示出的电子设备的计算机系统700仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图7所示,计算机系统700包括中央处理单元(Central Processing Unit,CPU)701,其可以根据存储在只读存储器(Read-Only Memory,ROM)702中的程序或者从储存部分708加载到随机访问存储器(Random Access Memory,RAM)703中的程序而执行各种适当的动作和处理,例如执行上述实施例中所述的方法。在RAM 703中,还存储有系统操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(Input/Output,I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分707;包括硬盘等的储存部分708;以及包括诸如LAN(Local Area Network,局域网)卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入储存部分708。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中,该计算机程序可以通过通信部分1109从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
本申请的另一方面还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被计算机的处理器执行时,使计算机执行如前各实施例所述的方法。该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的,也可以是单独存在,而未装配入该电子设备中。
本申请的另一方面还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各个实施例中提供的方法。
上述实施例仅示例性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,但凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
需要说明的是,本申请中,“第一”、“第二”等仅为对相似对象的区分,并非是对相似对象的顺序限定或先后次序限定。所描述的“包括”、“具有”等变形,表示该词语的主语所涵盖的范围除该词语所示出的示例外,并不排他。
可以理解的是,在本申请中记载的各种数字编号、步序编号等标号为描述方便进行的区分,并不用来限制本申请的范围。本申请标号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定。

Claims (14)

1.一种数据收集方法,其特征在于,所述数据收集方法包括:
获取用户的社区发布数据;
对所述社区发布数据与所述用户的用户数据集进行第一比对,将第一比对成功的所述用户数据集中的原有用户数据确定为第一识别数据,所述用户数据集包括多个原有用户数据和原有用户数据出现频次;
对第一比对失败的所述社区发布数据与预设总数据集进行第二比对,将第二比对成功的所述预设总数据集中的原有历史数据确定为第二识别数据,所述预设总数据集包括多个原有历史数据和原有历史数据出现频次;
基于所述原有用户数据出现频次和所述原有历史数据出现频次,统计所述第一识别数据的当前出现频次和所述第二识别数据的当前出现频次;
将所述第二识别数据的当前出现频次大于出现频次阈值的所述第二识别数据添加至所述用户数据集,以收集所述用户的用户数据。
2.如权利要求1所述的数据收集方法,其特征在于,对第一比对失败的所述社区发布数据与预设总数据集进行第二比对之后,基于所述原有用户数据出现频次和所述原有历史数据出现频次统计所述第一识别数据的当前出现频次和所述第二识别数据的当前出现频次之前,所述数据收集方法还包括:
对第二比对失败的所述社区发布数据进行文本识别;
将文本识别的识别结果添加至所述预设总数据集,以及将所述识别结果确定为所述第二识别数据。
3.如权利要求1所述的数据收集方法,其特征在于,所述原有用户数据包括历史发布数据和所述历史发布数据的历史用户识别结果,对所述社区发布数据与所述用户的用户数据集进行第一比对,将第一比对成功的所述用户数据集中的原有用户数据确定为第一识别数据包括:
将所述社区发布数据与所述历史发布数据进行第一比对;
若所述社区发布数据与所述历史发布数据的第一相似度大于第一预设相似度阈值,将所述第一比对结果确定为第一比对成功;
将所述第一相似度大于第一预设相似度阈值的历史发布数据的历史用户识别结果确定为所述第一识别数据。
4.如权利要求1所述的数据收集方法,其特征在于,所述原有历史数据包括原有发布数据和所述原有发布数据的原有识别结果,第一比对失败的所述社区发布数据与预设总数据集进行第二比对,将第二比对成功的所述预设总数据集中的原有历史数据确定为第二识别数据包括:
将所述社区发布数据与所述原有发布数据进行第二比对;
若所述社区发布数据与所述原有发布数据的第二相似度大于第二预设相似度阈值,将所述第二比对结果确定为第二比对成功;
将所述第二相似度大于第二预设相似度阈值的原有发布数据的原有识别结果确定为所述第二识别数据。
5.如权利要求1-4任一项所述的数据收集方法,其特征在于,对第一比对失败的所述社区发布数据与预设总数据集进行第二比对之前,所述数据收集方法还包括:
获取多个用户的用户数据集;
基于多个所述用户数据集生成所述预设总数据集,所述原有历史数据基于各所述用户数据集的所述原有用户数据确定。
6.如权利要求4所述的数据收集方法,其特征在于,将所述第二识别数据的当前出现频次大于出现频次阈值的所述第二识别数据添加至所述用户数据集包括:
关联所述原有识别结果、所述社区发布数据和所述第二识别数据的当前出现频次,并添加至所述用户数据集。
7.如权利要求4所述的数据收集方法,其特征在于,将所述第二识别数据的当前出现频次大于出现频次阈值的所述第二识别数据添加至所述用户数据集包括:
获取所述第二识别数据对应的所述原有历史数据的数据存储信息;
将所述数据存储信息添加至所述用户数据集。
8.如权利要求2所述的数据收集方法,其特征在于,将文本识别的识别结果添加至所述预设总数据集之前,所述方法还包括:
获取预设禁用文本集;
将所述预设禁用文本集与所述文本识别的识别结果进行禁用比对;
若所述识别结果通过所述禁用比对,将通过的所述识别结果添加至所述预设总数据集。
9.如权利要求5所述的数据收集方法,其特征在于,将所述第二识别数据的当前出现频次大于出现频次阈值的所述第二识别数据添加至所述用户数据集之后,所述方法还包括以下至少之一:
基于所述用户数据集中的原有用户数据出现频次确定所述用户的用户喜好数据,所述用户喜好数据包括至少一个原有用户数据;
基于所述预设总数据集中原有历史数据出现频次确定社区的社区喜好数据,所述社区喜好信息包括至少一个所述原有历史数据。
10.如权利要求1-4任一项所述的数据收集方法,其特征在于,将所述第二识别数据的当前出现频次大于出现频次阈值的所述第二识别数据添加至所述用户数据集之前,所述数据收集方法还包括:
对所述第一识别数据的当前出现频次和所述第二识别数据的当前出现频次进行排序;
将排序值为预设次序值的所述第一识别数据的当前出现频次或所述第二识别数据的当前出现频次确定为所述出现频次阈值。
11.一种文本识别方法,其特征在于,所述文本识别方法包括:
获取用户的待识别社区数据;
将所述待识别社区数据与所述用户的用户数据集进行第三比对,将第三比对成功的所述用户数据集中原有用户数据确定为第三识别数据,所述用户数据集中原有用户数据通过如权利要求1-10任一项所述的数据收集方法收集;
对第三比对失败的所述待识别社区数据与预设总数据集进行第四比对,将第四比对成功的所述预设总数据集中的原有历史数据确定为第四识别数据,所述预设总数据集包括多个用户的用户数据集;
基于所述第三识别数据和所述第四识别数据生成所述待识别社区数据的文本识别结果。
12.一种数据收集装置,其特征在于,所述数据收集装置包括:
获取模块,用于获取用户的社区发布数据;
第一比对模块,用于对所述社区发布数据与所述用户的用户数据集进行第一比对,将第一比对成功的所述用户数据集中的原有用户数据确定为第一识别数据,所述用户数据集包括多个原有用户数据和原有用户数据出现频次;
第二比对模块,用于对第一比对失败的所述社区发布数据与预设总数据集进行第二比对,将第二比对成功的所述预设总数据集中的原有历史数据确定为第二识别数据,所述预设总数据集包括多个原有历史数据和原有历史数据出现频次;
统计模块,用于基于所述原有用户数据出现频次和所述原有历史数据出现频次,统计所述第一识别数据的当前出现频次和所述第二识别数据的当前出现频次;
确定模块,用于将所述第二识别数据的当前出现频次大于出现频次阈值的所述第二识别数据添加至所述用户数据集,以收集所述用户的用户数据。
13.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现如权利要求1至11中任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,当所述计算机程序被计算机的处理器执行时,使计算机执行权利要求1至11中任一项所述的方法。
CN202211505477.6A 2022-11-28 2022-11-28 数据收集、文本识别方法、装置、设备及存储介质 Pending CN115796164A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211505477.6A CN115796164A (zh) 2022-11-28 2022-11-28 数据收集、文本识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211505477.6A CN115796164A (zh) 2022-11-28 2022-11-28 数据收集、文本识别方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115796164A true CN115796164A (zh) 2023-03-14

Family

ID=85442555

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211505477.6A Pending CN115796164A (zh) 2022-11-28 2022-11-28 数据收集、文本识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115796164A (zh)

Similar Documents

Publication Publication Date Title
CN108319630B (zh) 信息处理方法、装置、存储介质和计算机设备
CN111178380B (zh) 数据分类方法、装置及电子设备
CN109885597B (zh) 基于机器学习的用户分群处理方法、装置及电子终端
CN110908891A (zh) 一种测试数据生成方法、装置、电子设备及存储介质
CN107193974B (zh) 基于人工智能的地域性信息确定方法和装置
CN110659985A (zh) 一种捞回误拒潜在用户的方法、装置和电子设备
CN110334356A (zh) 文章质量的确定方法、文章筛选方法、以及相应的装置
US20190147104A1 (en) Method and apparatus for constructing artificial intelligence application
CN111582645B (zh) 基于因子分解机的app风险评估方法、装置和电子设备
CN110389941A (zh) 数据库校验方法、装置、设备及存储介质
CN113256072A (zh) 企业数据分类展示方法和装置、及存储介质和电子设备
CN111831708A (zh) 基于缺失数据的样本分析方法、装置、电子设备及介质
CN111586695A (zh) 短信识别方法及相关设备
CN111178701A (zh) 一种基于特征衍生技术的风险控制方法方法、装置和电子设备
CN114491149A (zh) 信息处理方法及装置、电子设备、存储介质、程序产品
US20150012550A1 (en) Systems and methods of messaging data analysis
CN108520012B (zh) 基于机器学习的移动互联网用户评论挖掘方法
CN115796164A (zh) 数据收集、文本识别方法、装置、设备及存储介质
CN110544166A (zh) 样本生成方法、装置及存储介质
CN113569929B (zh) 基于小样本扩展的互联网服务提供方法、装置及电子设备
CN106446696A (zh) 一种信息处理方法及电子设备
CN105677827B (zh) 一种表单的获取方法及装置
CN109885504B (zh) 推荐系统的测试方法、装置、介质及电子设备
CN113935748A (zh) 一种抽检对象的筛选方法、装置、设备及介质
CN109857632B (zh) 测试方法、装置、终端设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination