CN114065727A - 资讯去重方法、设备及计算机可读介质 - Google Patents
资讯去重方法、设备及计算机可读介质 Download PDFInfo
- Publication number
- CN114065727A CN114065727A CN202111459475.3A CN202111459475A CN114065727A CN 114065727 A CN114065727 A CN 114065727A CN 202111459475 A CN202111459475 A CN 202111459475A CN 114065727 A CN114065727 A CN 114065727A
- Authority
- CN
- China
- Prior art keywords
- information
- length
- keyword
- entity
- repeated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了资讯去重方案,该方案首先对第一资讯进行实体匹配,获取第一资讯中的实体信息,并对实体信息进行标准化处理,然后对完成标准化处理后的第一资讯进行关键词提取,获取第一资讯的关键词,基于关键词在已有资讯集中进行关键词召回,获取与关键词匹配的第三资讯,判断第一资讯和第三资讯是否重复,并在判断结果为重复时,对第一资讯进行去重处理。由于在该方案中,会在进行关键词提取之前先对第一资讯中的实体信息进行识别并做标准化处理,并且提取的关键词中可以至少包括一部分的实体信息,因此即使第一资讯中的实体表述不一致,也不会在召回和重复性判断时导致被判定为不同的内容,由此可以提升处理的准确性,提升去重效果。
Description
技术领域
本申请涉及信息技术领域,尤其涉及一种资讯去重方法、设备及计算机可读介质。
背景技术
随着自媒体和智能写稿的快速发展,金融资讯数量大幅增加,为了提高资讯推送或搜索领域的服务质量,就需要剔除内容重复的金融资讯。
目前,有很多关于长文本去重的方法和系统,也可应用在金融资讯去重的领域。通常的方案一般是先快速地召回候选文本,再利用算法进一步判断当前文本与候选文本相比是否重复,从而在保证性能的同时提高准确率。但是在金融领域中,金融资讯中的一些金融实体经常会存在不同的表述,例如金融资讯A中对于某一基金的表述是华夏中证500指数智选增强A,而在金融资讯B中对该基金的表述是华夏中证500。由于金融资讯的上述特点,现有的去重方案若直接应用于金融资讯的去重,会有由于这些不同的表述将同一实体对象判定为不同的内容,由此导致去重效果不佳的问题。
发明内容
本申请的一个目的是提供一种资讯去重方法、设备及计算机可读介质,用以解决现有技术中去重效果不佳的问题。
为实现上述目的,本申请提供了一种资讯去重方法,所述方法包括:
对第一资讯进行实体匹配,获取所述第一资讯中的实体信息,并对所述实体信息进行标准化处理;
对完成标准化处理后的第一资讯进行关键词提取,获取所述第一资讯的关键词,所述关键词至少包括一部分的所述实体信息;
基于所述关键词在已有资讯集中进行关键词召回,获取与所述关键词匹配的第三资讯;
判断所述第一资讯和所述第三资讯是否重复,并在判断结果为重复时,对所述第一资讯进行去重处理。
进一步地,所述实体信息包括数值信息和/或时间信息。
进一步地,对完成标准化处理后的第一资讯进行关键词提取,包括:
采用TF-IDF算法对完成标准化处理后的第一资讯进行关键词提取。
进一步地,在采用TF-IDF算法对完成标准化处理后的第一资讯进行关键词提取时,包含提取获得的关键词的文档数至少大于预设的第一阈值。
进一步地,基于所述关键词在已有资讯集中进行关键词召回,获取与所述关键词匹配的第三资讯,包括:
以所述关键词作为匹配条件,在已有资讯集中匹配包含所述关键词的第二资讯;
判断第一资讯相较于第二资讯是否具有额外信息;
若具有额外信息,将所述第二资讯确定为第三资讯。
进一步地,所述方法还包括:
若不具有额外信息,判定所述第一资讯与所述第二资讯重复,对所述第一资讯进行去重处理。
进一步地,判断第一资讯相较于第二资讯是否具有额外信息,包括:
根据所述第一资讯的长度length_1和所述第二资讯的长度length_2进行判断,若length_1×a>length_2,确定第一资讯相较于第二资讯具有额外信息,其中,a为小于等于1的参数。
进一步地,判断所述第一资讯和所述第三资讯是否重复,包括:
根据所述第一资讯的长度length_1和所述第三资讯的长度length_3进行判断;
若length_1<length_3×b,获取所述第一资讯和所述第三资讯的最长公共子串,并在第一长度差值小于等于第二阈值时,确定所述第一资讯和所述第三资讯重复,其中,b为小于等于1的参数,所述第一长度差值为所述最长公共子串和所述第一资讯之间的长度差值;
若length_3×c>length_1≥length_3×b,计算所述第一资讯和所述第三资讯的相似度数值,若所述相似度数值满足预设条件,确定所述第一资讯和所述第三资讯重复,其中,c为大于b的参数。
进一步地,所述相似度数值包括编辑距离和/或余弦相似度,所述相似度数值满足预设条件,包括:
所述编辑距离小于第三阈值;和/或
所述余弦相似度大于第四阈值。
进一步地,在确定所述第一资讯和所述第三资讯重复之前,还包括:
提取所述第一资讯和所述第三资讯中对应的数值信息;
以精度较低的数值信息为基准,将对应的数值信息进行精度对齐;
确定精度对齐后的数值信息相等。
本申请的一些实施例还提供了一种资讯去重设备,其中,该设备包括用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发所述设备执行所述资讯去重方法。
此外,本申请的一些实施例还提供了一种计算机可读介质,其上存储有计算机程序指令,所述计算机程序指令可被处理器执行以实现所述资讯去重方法。
与现有技术相比,本申请提供了资讯去重方案,该方案首先对第一资讯进行实体匹配,获取所述第一资讯中的实体信息,并对所述实体信息进行标准化处理,然后对完成标准化处理后的第一资讯进行关键词提取,获取所述第一资讯的关键词,基于所述关键词在已有资讯集中进行关键词召回,获取与所述关键词匹配的第三资讯,判断所述第一资讯和所述第三资讯是否重复,并在判断结果为重复时,对所述第一资讯进行去重处理。由于在该方案中,会在进行关键词提取之前先对第一资讯中的实体信息进行识别并做标准化处理,并且提取的关键词中可以至少包括一部分的实体信息,因此即使第一资讯中的实体表述不一致,也不会在召回和重复性判断时导致被判定为不同的内容,由此可以提升处理的准确性,提升去重效果。
此外,在本申请实施例提供的另一资讯去重方案中,可以将数值信息和/或时间信息也作为实体信息中的一种,对其进行标准化之后,以便于应用在后续的重复性判断中,由此可以使得本方案适用于智能写稿所形成的模板类资讯的去重。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1为本申请实施例提供的一种资讯去重方法的处理流程图;
图2为本申请实施例中一种资讯的内容示意图;
图3为采用本申请实施例提供的去重方案实现资讯去重时的处理流程图;
图4为本申请实施例中进行实体匹配的一种具体匹配流程示意图;
图5为本申请实施例中一种扩展实体库的处理流程图;
图6为本申请实施例中相似度计算及阈值判断的过程示意图;
图7为本申请实施例中一种用于实现资讯去重的设备的结构示意图;
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本申请作进一步详细描述。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请一个典型的配置中,终端、服务网络的设备均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机程序指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
本申请的一些实施例提供了一种资讯去重方法,该方法可以在进行关键词提取之前先对第一资讯中的实体信息进行识别并做标准化处理,并且提取的关键词中可以至少包括一部分的实体信息,因此即使第一资讯中的实体表述不一致,也不会在召回和重复性判断时导致被判定为不同的内容,由此可以提升处理的准确性,提升去重效果。
在实际场景中,该方法的执行主体可以是用户设备、网络设备或用户设备与网络设备通过网络相集成所构成的设备,或者也可以是运行于上述设备的应用程序。所述用户设备包括但不限于计算机、手机、平板电脑等各类终端设备;所述网络设备包括但不限于如网络主机、单个网络服务器、多个网络服务器集或基于云计算的计算机集合等实现。在此,云由基于云计算(Cloud Computing)的大量主机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟计算机。
图1示出了本申请实施例提供的一种资讯去重方法的处理流程,至少包括以下的处理步骤:
步骤S101,对第一资讯进行实体匹配,获取所述第一资讯中的实体信息,并对所述实体信息进行标准化处理。其中,所述第一资讯是指本次资讯去重的处理中,待判定是否与已有资讯重复的资讯,当本申请的方案应用于金融领域中时,所述第一资讯可以是金融资讯。所述第一资讯的来源可以是通过任意方式所获取到的资讯文本,如通过订阅的方式从资讯发布的数据源获取到的资讯文本,或者使用爬虫从网络中爬取的资讯文本等。
所述实体信息是指在一篇资讯中关于其所表述的内容中所包含的实体对象的信息,例如可以是资讯中所涉及的公司名称、任务名称、产品名称等。在实际场景中,由于作者的写作习惯、语境等因素的关系,同一实体信息可能会有多种不同的表述方式,以某一公司名称为例,该公司名称在不同的资讯中可能是全称,也可能是简称,还可能是特定语境下的别称。例如,A公司的全称可以是“XX控股有限公司”、简称可以是“XX”,而在网络上的别称可以是“X厂”,还如,B基金的全称是“华夏中证500指数智选增强A”,在一篇金融资讯中使用了该基金的全称,而在另一篇金融资讯中则使用了其简称“华夏中证500”。这些名称均可以作为实体信息在本处理步骤中被获取,并进行标准化的处理。
其中,所述标准化的处理是指将同一实体信息的不同表述方式进行处理,统一确定为同一中表述方式。比如“苹果公司”,“APPLE INC”都指向苹果有限公司,由此可以将这些不同的表述方式都匹配出来,并通过标准化处理统一对应至同一个实体对象。还如,“江苏省南京市”和“南京市”指向同一个地名,“今天”或“2021-xx-xx”可能指向同一天,也都需要获取并进行标准化处理。
在不同的应用场景中,可以根据场景的需求设定需要获取并进行标准化处理的实际信息的类型,从而避免获取并处理一些在对于特定应用场景无效的数据,从而提高方案实现的效率。例如对于每日汇总等模板类资讯的去重中,由于时间信息是在用于区别资讯是否重复时能够起到重要的区分作用,需要将该时间信息作为一类需要获取的实体信息,并进行标准化处理。由于模板类资讯一般应用于金融资讯中周期性的信息发布,例如每日价格、每日快讯等,不同资讯之间的区别往往仅在于时间信息以及周期性的变化信息。例如,图2所示的钨每日报价的资讯中,不同资讯之间的区别往往仅在于日期、价格等。由此,本申请实施例的方案将时间信息和数值信息作为实体信息的一种进行匹配和标准化处理,以便于应用在后续的重复性判断中,由此可以使得本方案适用于智能写稿所形成的模板类资讯的去重。而在普通的新闻资讯的去重中,由于时间信息对于区分是否重复的作用较小,可以将时间信息作为一类实体信息获取并做标准化处理。
在进行标准化处理时,为了提升处理效率,对于地名、公司名称或者产品名称等类型的实体信息,可以采用双数组树的数据结构存储其不同的表述方式,由此在获取并进行标准化处理时,可以利用双数组树的数据结构实现快速匹配及归一化。而对于时间信息等类型的实体信息,则可以采用预设的正则模块进行匹配,并标准化为统一的时间格式。而考虑到昨天、上周等相对时间的概念,还可以结合资讯的发布时间,确定其对应的绝对时间后再进行标准化处理。
步骤S102,对完成标准化处理后的第一资讯进行关键词提取,获取所述第一资讯的关键词。
在实际场景中,提取关键词的原则可以是选取对区分不同的资讯具有显著作用的词,一般可以包括两类,一类是前述步骤中所获取到的实体信息中的一部分,另一类则是剔除了实体信息之后的资讯文本中所抽取处理的其它能够对区分资讯起到作用的词。
在本申请的一些实施例例中,为了提高后续召回的性能,关键词提取的方式可以采用TF-IDF(term frequency-inverse document frequency,词频-逆文本频率指数)计算关键词。其中,TF是指词频,即表示某一词条在一条文档中出现的频率,而IDF则与语料库中包含了该词条的文档数量有关,包含该词条的文档数量越少,则IDF越大,表示该词条对文档的区分能力越强。而TF-IDF是将TF与IDF的乘积,可以用于评估某一词条对于一个语料库某一文档的重要程度。其中,语料库可以是类似领域中预先获取到的语料数据,例如在金融资讯去重的场景中,语料库中可以预先存储满足数量需求的金融资讯,作为语料库中的文档,以便于计算金融领域所可能涉及的各个词条的IDF。
为了避免错别字以及一些生僻字对于关键词提取结果的影响,在计算IDF时可以对词条出现的文本数量进行限制,使其满足给定的阈值,从而避免将一些包含错别字或生僻字的词条提取为关键词。具体地,可以在采用TF-IDF算法对完成标准化处理后的第一资讯进行关键词提取时,包含提取获得的关键词的文档数至少大于预设的第一阈值,由此提取到召回性能更好的关键词。
为了更好的提取关键词,可以在提取关键词之前对资讯进行预处理。所述预处理可以包括分词处理,即将完成标准化处理后的第一资讯采用预设的分词算法切分为由多个词条组成的序列,以便于进行后续处理。此外,预处理过程中,还可以根据实际的需求分词结果进行数据清洗等规范化的处理,如剔除标点、感叹词等无实际含义的词条,使得处理后的数据能够剔除更多的无效信息,确保后续处理的准确性。在此,本领域技术人员应当理解上述对资讯进行预处理以及关键词提取的具体方式仅为举例,现有或今后出现的基于类似原理的其它形式如果能够适用于本申请,也应该包含在本申请的保护范围内,并以引用的形式包含于此。
步骤S103,基于所述关键词在已有资讯集中进行关键词召回,获取与所述关键词匹配的第三资讯。其中,所述已有资讯集是指需要与第一资讯比较是否重复的已有资讯的集合,其中所包含的已有资讯均已经过实体信息的匹配以及标准化处理,其数据来源可以是在本次处理之前已通过去重的资讯,或者也可以是通过订阅或者爬虫爬取的资讯等。所述第三资讯是关键词召回所获得的处理结果,即已有资讯集中与所述关键词匹配的一条或多条已有资讯。
在进行关键词召回时,所获取到的与关键词匹配的第三资讯至少需要满足如下的条件,即第三资讯中至少需要包括了由第一资讯中所提取出的至少部分或所有关键词。在实际场景中,可以采用倒排索引的方式,对已有资讯集中的资讯建立索引,在进行召回时,采用关键词通过倒排索引的方式即可查询到已有资讯集中所有具有这些关键词的已有资讯。在实际场景中,为了获取到重复可能性更高的第三资讯,可以将召回条件设定为第三资讯中需要第一资讯中的所有关键词。
在本申请的一些实施例中,在基于所述关键词在已有资讯集中进行关键词召回,获取与所述关键词匹配的第三资讯时,可以在关键词的基础上进一步扩展,以提升资讯去重的效率。具体地,可以先以所述关键词作为匹配条件,在已有资讯集中匹配包含所述关键词的第二资讯,然后判断第一资讯相较于第二资讯是否具有额外信息,若具有额外信息,将所述第二资讯确定为第三资讯。
本实施例中,所述第二资讯是关键词召回所获得的处理结果,即已有资讯集中与所述关键词匹配的一条或多条已有资讯,作为确定第三讯息的候选资讯。其中,若判断结果为具有额外信息,则表示第一资讯中除了与第二资讯相同的内容之外,还包含了其它内容。该方案适用于如下的场景,例如给定当前资讯T(即第一资讯),在已有资讯集中通过关键词召回获取到资讯D(即第二资讯),其隐含了资讯T是在资讯D之后发布。当资讯T是资讯D的节选内容时,可以认为资讯T没有携带额外信息,可视为资讯T是资讯D的重复资讯。反之,当资讯D是资讯T的节选内容时,由于资讯T中携带了额外信息,可视为资讯T并非是资讯D的重复资讯。由此,若判断结果为不具有额外信息,可以判定所述第一资讯与所述第二资讯重复,从而对所述第一资讯进行去重处理。反之,若判断结果为具有额外信息,则可以将所述第二资讯确定为第三资讯,继续进行后续的处理,来进一步判断第一资讯是否与其重复。
在本申请的一些实施例中,是否具有额外信息的判断结果可以基于第一资讯和所述第二资讯的长度来实现判断。其中,所述第一资讯的长度可以记为length_1,所述第二资讯的长度可以记为length_2,根据length_1和length_2进行判断,若length_1×a>length_2,确定第一资讯相较于第二资讯具有额外信息。此外,若length_1×a≤length_2,则无法确定第一资讯相较于第二资讯是否具有额外信息,需要进一步通过后续的处理来判断这两这否重复。
其中,a可以是小于等于1的参数,例如本实施例中可以将a设定为0.9、1等数值,当a设定为1时,表示当第一资讯的长度大于第二资讯的长度时,认为第一资讯具有额外信息,反之则无法确定第一资讯相较于第二资讯是否具有额外信息。而当a设定为0.9时,则是在此基础上对判定的容错性进行了一定的调整,使得第一资讯的长度需要超过第二资讯达到一定的程度才会被认为具有额外的信息。
其中,本实施例中所述第一资讯和第二资讯的长度可以是资讯进行分词处理后所获取到的词条的数量。此外,对应于不同的应用场景,例如资讯采用了其它的语言、资讯属于其它的领域时,可以采用其它合适的方式来定义资讯的长度,例如在中文场景中也可以采用资讯所包含的文字数量来作为资讯的长度,而在英文场景中可以采用资讯所包含的单词数量作为资讯的长度等,可以根据实际场景的需要自行定义。
步骤S104,在采用任意的方式确定第三资讯后,即可判断所述第一资讯和所述第三资讯是否重复,并在判断结果为重复时,对所述第一资讯进行去重处理。其中,是否重复的判断可以基于第一资讯和第三资讯之间的文本内容是否相似来确定,若相似性满足预先设定的条件,则认为两者是重复的,反之若相似性未满足预先设定的条件,则认为两者不是重复的。
在实际场景中,第一资讯和第三资讯的长度可能存在以下三种情况:1、第一资讯的长度length_1小于第三资讯的长度length_3,且相差超过一定的程度;2、第一资讯的长度length_1与第三资讯的长度length_3接近,两者长度相差在一定的程度内;3、第一资讯的长度length_1大于第三资讯的长度length_3,且相差超过一定的程度。对于第1和2种情况,可以根据所述第一资讯的长度length_1和所述第三资讯的长度length_3,并采用如下的处理逻辑实现是否重复的判断:
若length_1<length_3×b,即对应于第1种情况,此时可以获取所述第一资讯和所述第三资讯的最长公共子串,将所述最长公共子串和所述第一资讯之间的长度差值确定为第一长度差值。然后根据第一长度差值与第二阈值进行比较,并在第一长度差值小于等于第二阈值时,确定所述第一资讯和所述第三资讯重复。其中,b为小于等于1的参数,可以参考前述的参数a设定,也可以根据实际场景的需要独立设定。
由此可知,在此种情况下首先判断出第一资讯的长度小于第三资讯的长度,且两者相差超过一定的程度,该程度由参数b确定。此时,可以获取第一资讯和第二资讯的最长公共子串。其中,两个资讯的最长公共子串是指两个资讯中文本内容相同的、最长的同序公共文本段,例如资讯A为“abcdef”资讯B为“bmdefg”,则两者的最长公共子串为“bdef”。然后,通过将最长公共子串和第一资讯进行比较,若这两者相差较小(如小于第二阈值),则表示第一资讯的大部分内容都存在于第三资讯中,由此可以确定第一资讯和第三资讯重复,进而进行去重处理。
若length_3×c>length_1≥length_3×b,即对应于第2种情况,此时可以计算所述第一资讯和所述第三资讯的相似度数值,若所述相似度数值满足预设条件,确定所述第一资讯和所述第三资讯重复。其中,c为大于b的参数,实际场景中可以设定为一个大于等于1的参数。例如,在本实施例中可以设定b为0.9,而将c设定为1或1.1等,由此表示第一资讯的长度小于第三资讯或第三资讯长度的1.1倍,且大于第三资讯的0.9倍,由此对应于第一资讯的长度length_1与第三资讯的长度length_3接近,且两者长度相差在一定的程度内的具体场景。
其中,所述相似度数值可以包括编辑距离和/或余弦相似度,相应地,相似度数值满足预设条件可以设定为所述编辑距离小于第三阈值和/或所述余弦相似度大于第四阈值。例如,在本申请实施例中,可以基于第一资讯和第三资讯的文本内容计算两者之间的余弦相似度和编辑距离,然后分别将余弦相似度和编辑距离与第三阈值和第四阈值进行比较,当两者都满足对应的阈值时,判定第一资讯和第三资讯重复,进而进行去重处理。
而对于第3种情况,由于此时第一资讯至少包含了较多新的文本内容,可以认为第一资讯与第三资讯重复的概率较低,因此可以将此种判定为第一资讯和第三资讯不重复。或者在实际场景中,可以将此种情况与第1种情况进行融合为一种情况进行处理,即第一资讯和第三资讯的长度差超过某一阈值,而无需区分哪个资讯更长,统一采用最长公共子串的方式进行后续判断,由于在第3种情况下,最长公共子串的长度不可能超过第三资讯的长度,因此将其与更长的第一资讯比较,两者的第一长度差值必然无法满足小于等于第二阈值的重复判断要求,同样可以识别出第3种情况。
考虑到数值类的实体信息在表述上的多样性,例如资讯A表述是“归母净利润8123.5万元”,资讯B表述为“归母净利润8123万元”,虽然从文本本身比较,两者是不同的,但对于阅读的用户而言,其实际表达的含义可以认为是等价的。因此,在判定两个资讯是否重复时,还需对资讯中的数值信息进行处理。
在实际场景中,常见数值问题包括数值表达的形式差异和精度差异,数值表达的形式差异即资讯中可能用中文或阿拉伯数字来表述数值信息,对于该问题可以在实体匹配时通过标准化处理来解决。而数值表达的精度差异是指数值在表达时,有些资讯可能用的是精确值,有的资讯则使用近似值,此时需要对其进行处理再判断。本申请实施例的方案中,采用的是精度对齐法,判断两种数值信息在同样的精度下是否一样,精度对齐时会选取两者中精度较低的值作为基准,再将高精度降低到低精度后进行比较,若此时的数值信息相等,则认为两者实际表达的含义等价。
由此该数值信息的进一步判断可以应用于本申请实施例方案中的重复判断过程中,在确定所述第一资讯和所述第三资讯重复之前,可以进一步增加对应数值信息是否相等的判断,具体方式为:首先,提取所述第一资讯和所述第三资讯中对应的数值信息,然后以精度较低的数值信息为基准,将对应的数值信息进行精度对齐,并以此进行判断。当确定精度对齐后的数值信息相等时,才可以获得所述第一资讯和所述第三资讯重复的判断结果,反之,若对应的数值信息是不同的,即使通过了基于最长公共子串或基于相似度数值的判定,也可以判定第一资讯和所述第三资讯不重复。该方案尤其适用于对模板类资讯的去重处理,可以有效避免将区别点主要在于数值信息和时间信息的不同模板类资讯误判为重复资讯。
此外,资讯通常由标题和正文组成,但是由于部分模板类资讯的标题可能完全相同,而区别的内容仅在于正文部分,例如“每日快讯”、“今日钢材价格”等类型的资讯,每日所发布的这类资讯中标题是完全相同的,因此其标题无法用于判断资讯是否重复,由此对于此类场景,可以仅提取相关资讯的正文内容进行处理。
图3示出了采用本申请实施例提供的去重方案实现资讯去重时的处理流程,至少包括了以下的处理步骤:
步骤S301,对待判断的资讯T进行实体匹配,获取其中的实体信息并进行标准化处理。其中,在进行实体匹配时,可以采用双数组树的数据结构,以提高处理效率。在实际场景中,可以根据需要处理的实体信息的类型依次对实体信息进行抽取并标准化。例如,图4示出了进行实体匹配的一种具体匹配流程,可以依次进行时间抽取并标准化、地点抽取并标准化、公司名抽取并标准化、数字抽取并标准化等。
由于本申请采用了实体匹配的方式,因此对实体信息的质量要求较高。在金融资讯的去重场景中,金融实体的标准名比较容易获得,但是别名具有多样性,且别名的产生具有持续性,因此需要借助实体识别方法扩展用于进行实体匹配的实体库。本申请实施例中采用BERT+CRF的方式来实现实体别名的挖掘和扩展,其中BERT(Bidirectional EncoderRepresentations from Transformers,基于Transformer的双向编码表征)是一种基于多层双向Transformer编码器结构的BERT预训练语言模型,通过该模型实现的词嵌入处理后,可以使得嵌入所生成的向量含元素和语句级的上下文信息并能够进行多义表征,因此可以很好地学习到文本特征,利用其作为CRF(Conditional Random Field,条件随机场)层的输入,可以提高CRF层的准确率,然后采用最长公共子串为候选别名找寻候选标准名,最终经由领域专家判断加入实体库,该方式的处理流程可以参考图5。
步骤S302,对资讯T进行核心词抽取,抽取其中的关键词作为核心词,核心词中可以包括一部分实体信息。
步骤S303,基于核心词召回相似资讯D,具体可以采用倒排索引的方式。
步骤S304,对资讯T和资讯D进行相似度计算。
步骤S305,将计算获得的相似度与阈值进行比较,确定是否重复,若重复,则进行去重,若不重复,则写入倒排索引,添加至用于召回相似资讯时的已有资讯集。其中,步骤S304和S305中的相似度计算及阈值判断的过程,可以采用如图6所示的处理流程。该处理过程中,进行长度判断时,长度相差较大是指资讯T和资讯D的长度差超过某一阈值,即对应前述的第1种和第3种情况,而长度相近则是指资讯T和资讯D的长度差在某一阈值内,即对应前述的第2种情况。获得相似的判断结果表示资讯T是资讯D的重复资讯,需要进行去重,反之若获得的是不相似的结果,则表示资讯T不是资讯D的重复资讯,无需进行去重。
基于同一发明构思,本申请实施例中还提供了一种资讯去重设备,所述设备和方法对应的方法是前述实施例中资讯去重方法,并且其解决问题的原理与该方法相似。该资讯去重设备包括用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发所述设备执行前述的资讯去重方法。
图7示出了适用于实现本申请实施例中的方法和/或技术方案的一种设备的结构,该设备700包括中央处理单元(CPU,Central Processing Unit)701,其可以根据存储在只读存储器(ROM,Read Only Memory)702中的程序或者从存储部分708加载到随机访问存储器(RAM,Random Access Memory)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有系统操作所需的各种程序和数据。CPU 701、ROM 702以及RAM703通过总线704彼此相连。输入/输出(I/O,Input/Output)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标、触摸屏、麦克风、红外传感器等的输入部分706;包括诸如阴极射线管(CRT,Cathode Ray Tube)、液晶显示器(LCD,LiquidCrystal Display)、LED显示器、OLED显示器等以及扬声器等的输出部分707;包括硬盘、光盘、磁盘、半导体存储器等一个或多个计算机可读介质的存储部分708;以及包括诸如LAN(局域网,Local Area Network)卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。
特别地,本申请实施例中的方法和/或实施例可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在该计算机程序被中央处理单元(CPU)701执行时,执行本申请的方法中限定的上述功能。
需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图或框图示出了按照本申请各种实施例的设备、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的针对硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个计算机程序指令,所述计算机程序指令可被处理器执行以实现前述本申请的多个实施例的方法和/或技术方案。
综上所述,本申请提供的资讯去重方案中,首先对第一资讯进行实体匹配,获取所述第一资讯中的实体信息,并对所述实体信息进行标准化处理,然后对完成标准化处理后的第一资讯进行关键词提取,获取所述第一资讯的关键词,基于所述关键词在已有资讯集中进行关键词召回,获取与所述关键词匹配的第三资讯,判断所述第一资讯和所述第三资讯是否重复,并在判断结果为重复时,对所述第一资讯进行去重处理。由于在该方案中,会在进行关键词提取之前先对第一资讯中的实体信息进行识别并做标准化处理,并且提取的关键词中可以至少包括一部分的实体信息,因此即使第一资讯中的实体表述不一致,也不会在召回和重复性判断时导致被判定为不同的内容,由此可以提升处理的准确性,提升去重效果。
此外,在本申请实施例提供的另一资讯去重方案中,可以将数值信息和/或时间信息也作为实体信息中的一种,对其进行标准化之后,以便于应用在后续的重复性判断中,由此可以使得本方案适用于智能写稿所形成的模板类资讯的去重。
需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一些实施例中,本申请的软件程序可以通过处理器执行以实现上文步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
Claims (12)
1.一种资讯去重方法,其特征在于,所述方法包括:
对第一资讯进行实体匹配,获取所述第一资讯中的实体信息,并对所述实体信息进行标准化处理;
对完成标准化处理后的第一资讯进行关键词提取,获取所述第一资讯的关键词,所述关键词至少包括一部分的所述实体信息;
基于所述关键词在已有资讯集中进行关键词召回,获取与所述关键词匹配的第三资讯;
判断所述第一资讯和所述第三资讯是否重复,并在判断结果为重复时,对所述第一资讯进行去重处理。
2.根据权利要求1所述的方法,其中,所述实体信息包括数值信息和/或时间信息。
3.根据权利要求1所述的方法,其中,对完成标准化处理后的第一资讯进行关键词提取,包括:
采用TF-IDF算法对完成标准化处理后的第一资讯进行关键词提取。
4.根据权利要求3所述的方法,其中,在采用TF-IDF算法对完成标准化处理后的第一资讯进行关键词提取时,包含提取获得的关键词的文档数至少大于预设的第一阈值。
5.根据权利要求1所述的方法,其中,基于所述关键词在已有资讯集中进行关键词召回,获取与所述关键词匹配的第三资讯,包括:
以所述关键词作为匹配条件,在已有资讯集中匹配包含所述关键词的第二资讯;
判断第一资讯相较于第二资讯是否具有额外信息;
若具有额外信息,将所述第二资讯确定为第三资讯。
6.根据权利要求5所述的方法,其中,所述方法还包括:
若不具有额外信息,判定所述第一资讯与所述第二资讯重复,对所述第一资讯进行去重处理。
7.根据权利要求5所述的方法,其中,判断第一资讯相较于第二资讯是否具有额外信息,包括:
根据所述第一资讯的长度length_1和所述第二资讯的长度length_2进行判断,若length_1×a>length_2,确定第一资讯相较于第二资讯具有额外信息,其中,a为小于等于1的参数。
8.根据权利要求1所述的方法,其中,判断所述第一资讯和所述第三资讯是否重复,包括:
根据所述第一资讯的长度length_1和所述第三资讯的长度length_3进行判断;
若length_1<length_3×b,获取所述第一资讯和所述第三资讯的最长公共子串,并在第一长度差值小于等于第二阈值时,确定所述第一资讯和所述第三资讯重复,其中,b为小于等于1的参数,所述第一长度差值为所述最长公共子串和所述第一资讯之间的长度差值;
若length_3×c>length_1≥length_3×b,计算所述第一资讯和所述第三资讯的相似度数值,若所述相似度数值满足预设条件,确定所述第一资讯和所述第三资讯重复,其中,c为大于b的参数。
9.根据权利要求8所述的方法,其中,所述相似度数值包括编辑距离和/或余弦相似度,所述相似度数值满足预设条件,包括:
所述编辑距离小于第三阈值;和/或
所述余弦相似度大于第四阈值。
10.根据权利要求8所述的方法,其中,在确定所述第一资讯和所述第三资讯重复之前,还包括:
提取所述第一资讯和所述第三资讯中对应的数值信息;
以精度较低的数值信息为基准,将对应的数值信息进行精度对齐;
确定精度对齐后的数值信息相等。
11.一种资讯去重设备,该设备包括用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发所述设备执行权利要求1至10中任一项所述的方法。
12.一种计算机可读介质,其上存储有计算机程序指令,所述计算机程序指令可被处理器执行以实现如权利要求1至10中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111459475.3A CN114065727A (zh) | 2021-12-01 | 2021-12-01 | 资讯去重方法、设备及计算机可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111459475.3A CN114065727A (zh) | 2021-12-01 | 2021-12-01 | 资讯去重方法、设备及计算机可读介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114065727A true CN114065727A (zh) | 2022-02-18 |
Family
ID=80228586
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111459475.3A Pending CN114065727A (zh) | 2021-12-01 | 2021-12-01 | 资讯去重方法、设备及计算机可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114065727A (zh) |
-
2021
- 2021-12-01 CN CN202111459475.3A patent/CN114065727A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109254733B (zh) | 用于存储数据的方法、装置和系统 | |
CN109376234B (zh) | 一种训练摘要生成模型的方法和装置 | |
WO2022121171A1 (zh) | 相似文本匹配方法、装置、电子设备及计算机存储介质 | |
CN109471851B (zh) | 数据处理方法、装置、服务器和存储介质 | |
US11556812B2 (en) | Method and device for acquiring data model in knowledge graph, and medium | |
CN114612759B (zh) | 视频处理方法、查询视频的方法和模型训练方法、装置 | |
US20120158742A1 (en) | Managing documents using weighted prevalence data for statements | |
CN108804418B (zh) | 一种基于语义分析的文档查重方法和装置 | |
CN114091426A (zh) | 一种处理数据仓库中字段数据的方法和装置 | |
CN110704608A (zh) | 文本主题生成方法、装置和计算机设备 | |
CN114579104A (zh) | 数据分析场景的生成方法、装置、设备及存储介质 | |
CN113660541A (zh) | 新闻视频的摘要生成方法及装置 | |
CN113408660B (zh) | 图书聚类方法、装置、设备和存储介质 | |
CN113110843B (zh) | 合约生成模型训练方法、合约生成方法及电子设备 | |
CN110852057A (zh) | 一种计算文本相似度的方法和装置 | |
CN112084448B (zh) | 相似信息处理方法以及装置 | |
CN113806660A (zh) | 数据评估方法、训练方法、装置、电子设备以及存储介质 | |
US20220335070A1 (en) | Method and apparatus for querying writing material, and storage medium | |
US9286349B2 (en) | Dynamic search system | |
CN114065727A (zh) | 资讯去重方法、设备及计算机可读介质 | |
US9703819B2 (en) | Generation and use of delta index | |
CN113760600B (zh) | 一种数据库备份方法、数据库还原方法和相关装置 | |
CN111625579B (zh) | 一种信息处理方法、装置及系统 | |
CN110309315B (zh) | 模板文件的生成方法、装置、计算机可读介质及电子设备 | |
CN111400342A (zh) | 数据库更新方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |