CN109597938A - 区块链资讯的识别方法以及装置 - Google Patents

区块链资讯的识别方法以及装置 Download PDF

Info

Publication number
CN109597938A
CN109597938A CN201811480238.3A CN201811480238A CN109597938A CN 109597938 A CN109597938 A CN 109597938A CN 201811480238 A CN201811480238 A CN 201811480238A CN 109597938 A CN109597938 A CN 109597938A
Authority
CN
China
Prior art keywords
block chain
information
chain information
classification
library
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811480238.3A
Other languages
English (en)
Inventor
曹雪倩
郗家贞
张政勇
周文祥
蔡明军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Tuoken Technology Co Ltd
Original Assignee
Beijing Tuoken Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Tuoken Technology Co Ltd filed Critical Beijing Tuoken Technology Co Ltd
Priority to CN201811480238.3A priority Critical patent/CN109597938A/zh
Publication of CN109597938A publication Critical patent/CN109597938A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开是关于一种区块链资讯的识别方法、装置、电子设备以及存储介质。其中,该方法包括:使用预设区块链抓取词在全网数据中进行抓取,生成区块链资讯库;将所述区块链资讯库中的资讯进行噪音过滤及内容去重处理;提取所述区块链资讯库中每篇区块链资讯中的关键词,并在预设关键词与区块链项目映射表中查找对应的区块链项目,作为所述区块链资讯的分类信息;根据所述分类信息生成区块链资讯检索信息并展示。本公开通过对区块链资讯信息有针对处理,实现区块链资讯的准确识别分类。

Description

区块链资讯的识别方法以及装置
技术领域
本公开涉及自然语言处理领域,具体而言,涉及一种区块链资讯的识别方法、装置、电子设备以及计算机可读存储介质。
背景技术
区块链是由一系列技术实现的全新去中心化经济组织模式,随着比特币系统的构建,区块链逐渐成为全球经济热点,进入了一个受到高度关注的阶段,各种各样的区块链项目如雨后春笋一般,各大互联网公司都开始研究区块链技术,同时,国家也陆续出台了一系列针对区块链的政策,区块链领域得到了前所未有的热度和关注,足以称得上是“全民区块链”。
区块链领域如此之火,每天都会产生非常多的区块链项目,这些区块链项目要么是官方宣传,要么是用户宣传,都会带来非常多的资讯。用户在面对这些又多又乱的资讯时,很难快速的找到自己想看的资讯新闻,这是由于:1.区块链资讯数据量大;2.区块链涉及到的项目接近三千个,此数目还在不断增加中,同时,该场景长尾现象十分严重,即这三千个项目所包括的资讯分布并不是均匀的,举个例子,比特币每天入库的新闻可能有几千篇,但是一些冷门的区块链项目可能一年只有几篇新闻,所有的分类算法都是需要大量数据进行训练的,而如此分布不均匀的数据很难用分类算法训练出合适的模型;3.在区块链领域,很多资讯从文章内容来说并没有太大的差别,比如比特币的新闻和以太坊的新闻,除了项目不同,内容差距远远比不上时政类新闻和娱乐类新闻之间的差距,这也造成了分类算法的应用困难,计算机很难从都差不多的新闻里学到足够的信息,更不用提还有很多新闻资讯同时涉及了好几个区块链项目,给分类任务带来更大的挑战。
因此,需要提供一种或多种至少能够解决上述问题的技术方案。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种区块链资讯的识别方法、装置、电子设备以及计算机可读存储介质,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。
根据本公开的一个方面,提供一种区块链资讯的识别方法,包括:
资讯抓取步骤,使用预设区块链抓取词在全网数据中进行抓取,生成区块链资讯库;
资讯过滤步骤,将所述区块链资讯库中的资讯进行噪音过滤及内容去重处理;
资讯识别步骤,提取所述区块链资讯库中每篇区块链资讯中的关键词,并在预设关键词与区块链项目映射表中查找对应的区块链项目,作为所述区块链资讯的分类信息;
资讯展示步骤,根据所述分类信息生成区块链资讯检索信息并展示。
在本公开的一种示例性实施例中,所述资讯抓取步骤中所述区块链抓取词可以定期更新。
在本公开的一种示例性实施例中,所述区块链抓取词定期更新方法包括:
定期在历史区块链资讯中提取的关键词;
将所述关键词按照词性过滤,只保留专有名词,并按照权重排序;
将预算排名之前的关键词作为区块链抓取词进行更新。
在本公开的一种示例性实施例中,所述区块链抓取词定期更新方法包括:区块链抓取词人工修正和更新。
在本公开的一种示例性实施例中,所述资讯抓取步骤还包括:抓取预设区块链领域颇具权威的网站和公众号,以及所有区块链项目的官方资讯来源中的区块链资讯补充更新所述区块链资讯库。
在本公开的一种示例性实施例中,所述资讯过滤步骤中所述区块链资讯库中的资讯进行噪音过滤的方法为基于FastText算法的一个二分类器过滤方法:
通过人工标注的方法,建立预设资讯数量的标准资讯数据集,所述标准资讯数据集中区块链资讯样本与非区块链资讯样本的比例为4∶1;
将所述标准资讯数据集通过FastText算法进行初始训练,并对区块链资讯样本与非区块链资讯样本施加不同的惩罚因子,生成训练模型;
在标准资讯数据集中未进行初始训练的数据中抽取预设数量的样本,并根据区块链专有名词和非区块链名词分别对所述样本进行分类标记;
预测所述样本的分类标记结果,按照预设转换阈值和规则进行分类标记的转换,并使用转换后的数据更新所述标准资讯数据集;
重复上述步骤,直至所述标准资讯数据集中训练模型完全收敛。
在本公开的一种示例性实施例中,所述资讯过滤步骤中所述区块链资讯库中的内容去重处理包括:通过simhash算法对所述区块链资讯库中进行噪音过滤后的资讯进行内容去重处理。
在本公开的一种示例性实施例中,所述资讯识别步骤还包括:
基于textrank算法提取所述区块链资讯库中每篇区块链资讯中的关键词,并过滤所述关键词中的区块链项目关联词;
将区块链资讯中各分类区块链项目关联词按照预设权重相加,得到对应各分类的权重值;
将所述权重值排序并生成所述区块链资讯与区块链项目的对应关系,并生成所述区块链资讯的分类信息。
在本公开的一种示例性实施例中,所述资讯识别步骤还包括:对容易引入噪音的区块链项目再次过滤,并生成所述区块链资讯的分类信息。
在本公开的一个方面,提供一种区块链资讯的识别装置,包括:
资讯抓取模块,用于使用预设区块链抓取词在全网数据中进行抓取,生成区块链资讯库;
资讯过滤模块,用于将所述区块链资讯库中的资讯进行噪音过滤及内容去重处理;
资讯识别模块,用于提取所述区块链资讯库中每篇区块链资讯中的关键词,并在预设关键词与区块链项目映射表中查找对应的区块链项目,作为所述区块链资讯的分类信息;
资讯展示模块,用于根据所述分类信息生成区块链资讯检索信息并展示。
在本公开的一个方面,提供一种电子设备,包括:
处理器;以及
存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现根据上述任意一项所述的方法。
在本公开的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现根据上述任意一项所述的方法。
本公开的示例性实施例中的区块链资讯的识别方法,使用预设区块链抓取词在全网数据中进行抓取,生成区块链资讯库;将所述区块链资讯库中的资讯进行噪音过滤及内容去重处理;提取所述区块链资讯库中每篇区块链资讯中的关键词,并在预设关键词与区块链项目映射表中查找对应的区块链项目,作为所述区块链资讯的分类信息;根据所述分类信息生成区块链资讯检索信息并展示。一方面,在预设算法训练完成后,无需人工干预,就能智能的从每天庞杂的新闻资讯中自动提取归纳出区块链资讯;另一方面,还可以根据不同的区块链项目,对抓取的区块链资讯按照区块链项目分类,极大的方便了用户的检索和调用选取。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
通过参照附图来详细描述其示例实施例,本公开的上述和其它特征及优点将变得更加明显。
图1示出了根据本公开一示例性实施例的区块链资讯的识别方法的流程图;
图2示出了根据本公开一示例性实施例的区块链资讯的识别方法中区块链抓取词定期更新方法的流程图;
图3示出了根据本公开一示例性实施例的区块链资讯的识别方法中基于FastText算法的一个二分类器过滤方法的流程图;
图4示出了根据本公开一示例性实施例的区块链资讯的识别方法中基于textrank算法的资讯识别方法的流程图;
图5示出了根据本公开一示例性实施例的区块链资讯的识别装置的示意框图;
图6示意性示出了根据本公开一示例性实施例的电子设备的框图;以及
图7示意性示出了根据本公开一示例性实施例的计算机可读存储介质的示意图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本公开将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有所述特定细节中的一个或更多,或者可以采用其它的方法、组元、材料、装置、步骤等。在其它情况下,不详细示出或描述公知结构、方法、装置、实现、材料或者操作以避免模糊本公开的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个软件硬化的模块中实现这些功能实体或功能实体的一部分,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
在本示例实施例中,首先提供了一种区块链资讯的识别方法,可以应用于电动汽车控制系统等电子设备;参考图1中所示,该区块链资讯的识别方法可以包括以下步骤:
资讯抓取步骤S110,使用预设区块链抓取词在全网数据中进行抓取,生成区块链资讯库;
资讯过滤步骤S120,将所述区块链资讯库中的资讯进行噪音过滤及内容去重处理;
资讯识别步骤S130,提取所述区块链资讯库中每篇区块链资讯中的关键词,并在预设关键词与区块链项目映射表中查找对应的区块链项目,作为所述区块链资讯的分类信息;
资讯展示步骤S140,根据所述分类信息生成区块链资讯检索信息并展示。
根据本示例实施例中的区块链资讯的识别方法,一方面,在预设算法训练完成后,无需人工干预,就能智能的从每天庞杂的新闻资讯中自动提取归纳出区块链资讯;另一方面,还可以根据不同的区块链项目,对抓取的区块链资讯按照区块链项目分类,极大的方便了用户的检索和调用选取。
下面,将对本示例实施例中的区块链资讯的识别方法进行进一步的说明。
在资讯抓取步骤S110中,可以使用预设区块链抓取词在全网数据中进行抓取,生成区块链资讯库。
在本示例的实施例中,所述资讯抓取步骤中所述区块链抓取词可以定期更新。所述定期更新可以采用根据历史区块链资讯进行定期更新,也可以采用人工干预的方式进行更新。前者更加智能,适用于批量化处理的场合;而后者应变性更强,可以适用于突发信息的处理及数据监控管制的场合。
在本示例的实施例中,参考图2中所示,所述区块链抓取词定期更新方法包括:定期在历史区块链资讯中提取的关键词;将所述关键词按照词性过滤,只保留专有名词,并按照权重排序;将预算排名之前的关键词作为区块链抓取词进行更新。如可以以24小时为固定周期,即每天根据前一天的区块链资讯进行当天的抓取词更新;还可以根据不同周期采用不同深度的数据库进行有选择有梯度的更新。
在本示例的实施例中,所述区块链抓取词定期更新方法包括:区块链抓取词人工修正和更新。人工修正和更新即能推升整个系统的应变性,还是内容过滤的最后屏障。
在本示例的实施例中,所述资讯抓取步骤还包括:抓取预设区块链领域颇具权威的网站和公众号,以及所有区块链项目的官方资讯来源中的区块链资讯补充更新所述区块链资讯库。在实际应用中,如果仅仅按照所述区块链抓取词对全网数据进行抓取还不够,还需补充经评估的若干个区块链领域颇具权威的网站和公众号,将其全部当作抓取源引入到我们的抓取列表里,进一步增加优质的新闻资讯;另外所有区块链项目的官方来源,包括twitter,Facebook,微博,微信等,对这些官方来源也进行了抓取,最终得到了一个全面详实的区块链资讯库,囊括了国内外和官方非官方的各种资讯,在内容的全面性和多样性上,在整个业内也属于前列。
在资讯过滤步骤S120中,可以将所述区块链资讯库中的资讯进行噪音过滤及内容去重处理。
在本示例的实施例中,参考图3中所示,所述资讯过滤步骤中所述区块链资讯库中的资讯进行噪音过滤的方法为基于FastText算法的一个二分类器过滤方法:
通过人工标注的方法,建立预设资讯数量的标准资讯数据集,所述标准资讯数据集中区块链资讯样本与非区块链资讯样本的比例为4∶1;将所述标准资讯数据集通过FastText算法进行初始训练,并对区块链资讯样本与非区块链资讯样本施加不同的惩罚因子,生成训练模型;在标准资讯数据集中未进行初始训练的数据中抽取预设数量的样本,并根据区块链专有名词和非区块链名词分别对所述样本进行分类标记;预测所述样本的分类标记结果,按照预设转换阈值和规则进行分类标记的转换,并使用转换后的数据更新所述标准资讯数据集;重复上述步骤,直至所述标准资讯数据集中训练模型完全收敛。经过上述基于FastText算法的一个二分类器过滤方法所训练出的分类器的错分误差不超过10%,能够有效过滤大部分的噪音数据。
在本示例的实施例中,所述资讯过滤步骤中所述区块链资讯库中的内容去重处理包括:通过simhash算法对所述区块链资讯库中进行噪音过滤后的资讯进行内容去重处理。新闻资讯进入过滤模块后,过滤顺序是FastText算法先过滤掉非区块链资讯,接着用simhash过滤掉重复文本,剩下的新闻资讯才是需要智能识别的。
在资讯识别步骤S130中,可以提取所述区块链资讯库中每篇区块链资讯中的关键词,并在预设关键词与区块链项目映射表中查找对应的区块链项目,作为所述区块链资讯的分类信息。若所述区块链资讯对应多个区块链项目,则按照权重值标记多个对应的分类信息。
在本示例的实施例中,参考图4中所示,所述资讯识别步骤还包括:
基于textrank算法提取所述区块链资讯库中每篇区块链资讯中的关键词,并过滤所述关键词中的区块链项目关联词;将区块链资讯中各分类区块链项目关联词按照预设权重相加,得到对应各分类的权重值;将所述权重值排序并生成所述区块链资讯与区块链项目的对应关系,并生成所述区块链资讯的分类信息。
所述资讯识别步骤是整个智能识别系统中最重要的一环,由于区块链咨询具有长尾现象严重和内容区分度不高这两个问题,应用分类算法反而得不到好的效果,因此,不局限于分类方法,而是从提取资讯里的项目关键词入手来对每篇资讯打上类别标记,能够起到更精准的效果。举例说明:构建并维护一个项目关联词库,把接近3000个项目的所有关联词做成词库并和区块链项目进行映射,如比特币有10个项目关联词,则映射关系就是比特币:关联词1,关联词2...;有了词库后,基于textrank算法提取每篇资讯的关键词,并过滤出其中的项目关联词,并把关联词的权重相加,得到的总权重就是该项目在这篇资讯中的权重,由于textrank算法在提取关键词的过程中,考虑到了关键词出现的频次,因此更倾向于提取出资讯里频繁出现的项目关联词;最后为资讯打上对应的项目标记,资讯里如果涉及到多个区块链项目,就按照权重值顺序打上多个标记,作为所述区块链资讯的分类信息。
在本示例的实施例中,所述资讯识别步骤还包括:对容易引入噪音的区块链项目再次过滤,并生成所述区块链资讯的分类信息。虽然在之前的咨询过滤步骤已经对非区块链资讯进行了去除,但还是有约10%的可能性没有过滤干净,因此在智能识别环节,在为新闻资讯打上项目标记之前,在提取关键词的算法基础上,设计了歧义项目的过滤,对容易引入噪音的区块链项目再次过滤,这里的噪音数据就是非区块链的资讯,避免了在开始的过滤模块未被完全的过滤掉,以至于误打上了区块链项目的关键词。
在资讯展示步骤S140中,可以根据所述分类信息生成区块链资讯检索信息并展示。
在本示例的实施例中,根据所述分类信息生成区块链资讯可以按照分类信息直接在用户的app或者网页端等以列表等形式依次展现,也可以生成对应的检索信息,并按照所述检索信息建立索引关系,方便用户进一步的检索和调用。
需要说明的是,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
此外,在本示例实施例中,还提供了一种区块链资讯的识别装置。参照图5所示,该区块链资讯的识别装置500可以包括:资讯抓取模块510、资讯过滤模块520、资讯识别模块530以及资讯展示模块540。其中:
资讯抓取模块510,用于使用预设区块链抓取词在全网数据中进行抓取,生成区块链资讯库;
资讯过滤模块520,用于将所述区块链资讯库中的资讯进行噪音过滤及内容去重处理;
资讯识别模块530,用于提取所述区块链资讯库中每篇区块链资讯中的关键词,并在预设关键词与区块链项目映射表中查找对应的区块链项目,作为所述区块链资讯的分类信息;
资讯展示模块540,用于根据所述分类信息生成区块链资讯检索信息并展示。
上述中各区块链资讯的识别装置模块的具体细节已经在对应的音频段落识别方法中进行了详细的描述,因此此处不再赘述。
应当注意,尽管在上文详细描述中提及了区块链资讯的识别装置500的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,在本公开的示例性实施例中,还提供了一种能够实现上述方法的电子设备。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施例、完全的软件实施例(包括固件、微代码等),或硬件和软件方面结合的实施例,这里可以统称为“电路”、“模块”或“系统”。
下面参照图6来描述根据本发明的这种实施例的电子设备600。图6显示的电子设备600仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于:上述至少一个处理单元610、上述至少一个存储单元620、连接不同系统组件(包括存储单元620和处理单元610)的总线630、显示单元640。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元610执行,使得所述处理单元610执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。例如,所述处理单元610可以执行如图1中所示的步骤S110至步骤S140。
存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。
存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备670(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器660通过总线630与电子设备600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施例的描述,本领域的技术人员易于理解,这里描述的示例实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施例的方法。
在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施例中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。
参考图7所示,描述了根据本发明的实施例的用于实现上述方法的程序产品700,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
此外,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims (12)

1.一种区块链资讯的识别方法,其特征在于,所述方法包括:
资讯抓取步骤,使用预设区块链抓取词在全网数据中进行抓取,生成区块链资讯库;
资讯过滤步骤,将所述区块链资讯库中的资讯进行噪音过滤及内容去重处理;
资讯识别步骤,提取所述区块链资讯库中每篇区块链资讯中的关键词,并在预设关键词与区块链项目映射表中查找对应的区块链项目,作为所述区块链资讯的分类信息;
资讯展示步骤,根据所述分类信息生成区块链资讯检索信息并展示。
2.如权利要求1所述的方法,其特征在于,所述资讯抓取步骤中所述区块链抓取词可以定期更新。
3.如权利要求2所述的方法,其特征在于,所述区块链抓取词定期更新方法包括:
定期在历史区块链资讯中提取的关键词;
将所述关键词按照词性过滤,只保留专有名词,并按照权重排序;
将预算排名之前的关键词作为区块链抓取词进行更新。
4.如权利要求2所述的方法,其特征在于,所述区块链抓取词定期更新方法包括:区块链抓取词人工修正和更新。
5.如权利要求1所述的方法,其特征在于,所述资讯抓取步骤还包括:抓取预设区块链领域颇具权威的网站和公众号,以及所有区块链项目的官方资讯来源中的区块链资讯补充更新所述区块链资讯库。
6.如权利要求1所述的方法,其特征在于,所述资讯过滤步骤中所述区块链资讯库中的资讯进行噪音过滤的方法为基于FastText算法的一个二分类器过滤方法:
通过人工标注的方法,建立预设资讯数量的标准资讯数据集,所述标准资讯数据集中区块链资讯样本与非区块链资讯样本的比例为4∶1;
将所述标准资讯数据集通过FastText算法进行初始训练,并对区块链资讯样本与非区块链资讯样本施加不同的惩罚因子,生成训练模型;
在标准资讯数据集中未进行初始训练的数据中抽取预设数量的样本,并根据区块链专有名词和非区块链名词分别对所述样本进行分类标记;
预测所述样本的分类标记结果,按照预设转换阈值和规则进行分类标记的转换,并使用转换后的数据更新所述标准资讯数据集;
重复上述步骤,直至所述标准资讯数据集中训练模型完全收敛。
7.如权利要求1所述的方法,其特征在于,所述资讯过滤步骤中所述区块链资讯库中的内容去重处理包括:通过simhash算法对所述区块链资讯库中进行噪音过滤后的资讯进行内容去重处理。
8.如权利要求1所述的方法,其特征在于,所述资讯识别步骤还包括:
基于textrank算法提取所述区块链资讯库中每篇区块链资讯中的关键词,并过滤所述关键词中的区块链项目关联词;
将区块链资讯中各分类区块链项目关联词按照预设权重相加,得到对应各分类的权重值;
将所述权重值排序并生成所述区块链资讯与区块链项目的对应关系,并生成所述区块链资讯的分类信息。
9.如权利要求1所述的方法,其特征在于,所述资讯识别步骤还包括:对容易引入噪音的区块链项目再次过滤,并生成所述区块链资讯的分类信息。
10.一种区块链资讯的识别装置,其特征在于,所述装置包括:
资讯抓取模块,用于使用预设区块链抓取词在全网数据中进行抓取,生成区块链资讯库;
资讯过滤模块,用于将所述区块链资讯库中的资讯进行噪音过滤及内容去重处理;
资讯识别模块,用于提取所述区块链资讯库中每篇区块链资讯中的关键词,并在预设关键词与区块链项目映射表中查找对应的区块链项目,作为所述区块链资讯的分类信息;
资讯展示模块,用于根据所述分类信息生成区块链资讯检索信息并展示。
11.一种电子设备,其特征在于,包括
处理器;以及
存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现根据权利要求1至9中任一项所述的方法。
12.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现根据权利要求1至9中任一项所述方法。
CN201811480238.3A 2018-12-05 2018-12-05 区块链资讯的识别方法以及装置 Pending CN109597938A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811480238.3A CN109597938A (zh) 2018-12-05 2018-12-05 区块链资讯的识别方法以及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811480238.3A CN109597938A (zh) 2018-12-05 2018-12-05 区块链资讯的识别方法以及装置

Publications (1)

Publication Number Publication Date
CN109597938A true CN109597938A (zh) 2019-04-09

Family

ID=65961233

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811480238.3A Pending CN109597938A (zh) 2018-12-05 2018-12-05 区块链资讯的识别方法以及装置

Country Status (1)

Country Link
CN (1) CN109597938A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334268A (zh) * 2019-07-05 2019-10-15 北京国创动力文化传媒有限公司 一种区块链项目热词生成方法以及装置
CN110427404A (zh) * 2019-08-01 2019-11-08 上海计算机软件技术开发中心 一种区块链跨链数据检索系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140324825A1 (en) * 2013-04-29 2014-10-30 International Business Machine Corporation Generation of multi-faceted search results in response to query
CN106960063A (zh) * 2017-04-20 2017-07-18 广州优亚信息技术有限公司 一种针对招商引资领域的互联网情报抓取和推荐系统
CN108255963A (zh) * 2017-12-22 2018-07-06 北京智慧星光信息技术有限公司 一种基于互联网的新闻信息检索的控制方法及装置
CN108804432A (zh) * 2017-04-26 2018-11-13 慧科讯业有限公司 一种基于网络媒体数据流发现并跟踪热点话题的方法、系统和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140324825A1 (en) * 2013-04-29 2014-10-30 International Business Machine Corporation Generation of multi-faceted search results in response to query
CN106960063A (zh) * 2017-04-20 2017-07-18 广州优亚信息技术有限公司 一种针对招商引资领域的互联网情报抓取和推荐系统
CN108804432A (zh) * 2017-04-26 2018-11-13 慧科讯业有限公司 一种基于网络媒体数据流发现并跟踪热点话题的方法、系统和装置
CN108255963A (zh) * 2017-12-22 2018-07-06 北京智慧星光信息技术有限公司 一种基于互联网的新闻信息检索的控制方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334268A (zh) * 2019-07-05 2019-10-15 北京国创动力文化传媒有限公司 一种区块链项目热词生成方法以及装置
CN110427404A (zh) * 2019-08-01 2019-11-08 上海计算机软件技术开发中心 一种区块链跨链数据检索系统

Similar Documents

Publication Publication Date Title
CN108334533B (zh) 关键词提取方法和装置、存储介质及电子装置
US9197244B2 (en) Multi-layer system for symbol-space based compression of patterns
CN111125460B (zh) 信息推荐方法及装置
CN110297935A (zh) 图像检索方法、装置、介质及电子设备
CN109992763A (zh) 语言标注处理方法、系统、电子设备及计算机可读介质
US20230385549A1 (en) Systems and methods for colearning custom syntactic expression types for suggesting next best corresponence in a communication environment
CN112148881B (zh) 用于输出信息的方法和装置
CN110597978B (zh) 物品摘要生成方法、系统、电子设备及可读存储介质
CN110334268B (zh) 一种区块链项目热词生成方法以及装置
CA2833355C (en) System and method for automatic wrapper induction by applying filters
CN109299235A (zh) 知识库搜索方法、装置及计算机可读存储介质
CN103092966A (zh) 一种挖掘词汇的方法及装置
CN110209659A (zh) 一种简历过滤方法、系统和计算机可读存储介质
CN108664609A (zh) 一种数据共享的方法、网络设备及终端
CN109597938A (zh) 区块链资讯的识别方法以及装置
CN111680161A (zh) 一种文本处理方法、设备以及计算机可读存储介质
CN111859967A (zh) 实体识别方法、装置,电子设备
CN113312924A (zh) 一种基于nlp高精解析标签的风险规则分类方法及装置
CN113886708A (zh) 基于用户信息的产品推荐方法、装置、设备及存储介质
CN110019763A (zh) 文本过滤方法、系统、设备及计算机可读存储介质
CN112598039A (zh) 获取nlp分类领域阳性样本方法及相关设备
CN112801207A (zh) 一种基于大数据的电力用户画像构建方法及装置
CN106446270A (zh) 一种分类方法及装置
CN115238009A (zh) 基于血缘分析的元数据管理方法、装置、设备及存储介质
CN115774797A (zh) 视频内容检索方法、装置、设备和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190409