一种资讯数据处理方法及装置
技术领域
本申请涉及信息技术领域,尤其涉及一种资讯数据处理方法及装置。
背景技术
随着信息技术和互联网技术的迅速发展,人们每天都可以通过互联网获得大量数据,这些数据中很大一部分都是资讯数据。
一般地,可以根据各种资讯数据的主题信息,将各种资讯数据划分为多个资讯类别,比如,财经资讯类别、体育资讯类别等。属于财经资讯类别的各资讯数据的主题信息主要与财经相关,属于体育资讯类别的各资讯数据的主题信息主要与体育相关,等等。
每种资讯类别都对应于一些关键词,这些关键词一般可以是其对应的资讯类别的专用名词,这些专用名词一般常见于属于其对应的资讯类别的资讯数据中,而在不属于其对应的资讯类别的资讯数据中则不常见。比如,财经资讯类别对应的关键词可以是股票名称等,体育资讯类别对应的关键词可以是体育明星姓名等。为了便于用户利用资讯数据,可以将各资讯数据中包含的关键词识别出来,并建立资讯数据与其包含的关键词的关联关系,从而可以使得用户通过检索关键词就能够便利地找到相应的资讯数据。
在现有技术中,一般采用将对于与某一资讯类别的各关键词与资讯数据进行全文匹配的识别方式,确定该资讯数据中包含的关键词。
但是,在实际应用中,某一资讯类别对应的一个关键词可以能具有多种语义,在这多种语义中,一般只有其中一种语义是对应于该资讯类别的,而其他语义可能并非对应于该资讯类别。在这种情况下,可能会降低识别结果的可靠性。
发明内容
本申请实施例提供一种资讯数据处理方法及装置,用以解决现有技术中,资讯类别对应的关键词可能具有多种语义,从而可能降低在资讯数据中对该关键词的识别结果的可靠性的问题。
本申请实施例提供另一种资讯数据处理方法及装置。
本申请实施例采用下述技术方案:
本申请实施例提供的一种资讯数据处理方法,包括:
获取待处理资讯数据;
当判定所述待处理资讯数据属于指定资讯类别时,提取所述待处理资讯数据的主题词;
将提取出的部分或全部的所述主题词与所述指定资讯类别对应的关键词进行匹配,以从各所述关键词中,确定与至少一个所述主题词匹配成功的关键词。
本申请实施例提供的一种资讯数据处理装置,包括:
获取模块,用于获取待处理资讯数据;
判定提取模块,用于当判定所述待处理资讯数据属于指定资讯类别时,提取所述待处理资讯数据的主题词;
匹配模块,用于将提取出的部分或全部的所述主题词与所述指定资讯类别对应的关键词进行匹配,以从各所述关键词中,确定与至少一个所述主题词匹配成功的关键词。
本申请实施例提供的另一种资讯数据处理方法,包括:
获取待处理资讯数据;
当判定所述待处理资讯数据属于财经资讯类别时,提取所述待处理资讯数据的主题词;
将提取出的部分或全部的所述主题词与预定的各股票名称进行匹配,以从所述各股票名称中,确定与至少一个所述主题词匹配成功的股票名称。
本申请实施例提供的另一种资讯数据处理装置,包括:
获取模块,用于获取待处理资讯数据;
判定提取模块,用于当判定所述待处理资讯数据属于财经资讯类别时,提取所述待处理资讯数据的主题词;
股票名称匹配模块,用于将提取出的部分或全部的所述主题词与预定的各股票名称进行匹配,以从所述各股票名称中,确定与至少一个所述主题词匹配成功的股票名称。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:对于指定资讯类别对应的各关键词,在各待处理资讯数据中识别这些关键词时,可以根据各待处理资讯数据的主题信息和主题词进行识别,对于不属于指定资讯类别的待处理资讯数据,待处理资讯数据的关键词一般未包含在所述各关键词中,则可以不进行后续步骤,而对于属于指定资讯类别的待处理资讯数据,可以根据待处理资讯数据的主题词,在待处理资讯数据中识别各关键词,识别出的关键词在待处理资讯数据中的语义,有很大概率是对应于指定资讯类别的,因此,相比于现有技术,可以提高识别结果的可靠性,可以部分或全部地解决现有技术中的问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的一种资讯数据处理方法的过程;
图2为本申请实施例提供的另一种资讯数据处理方法的过程;
图3为本申请实施例提供的在实际应用中,在资讯数据中识别股票名称的方法的详细过程;
图4为本申请实施例提供的对应于图1的资讯数据处理装置结构示意图;
图5为本申请实施例提供的对应于图2的资讯数据处理装置结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
如前所述,某一资讯类别对应的一个关键词可以能具有多种语义,在这多种语义中,只有其中一种语义是对应于该资讯类别的,而其他语义则可能并非对应于该资讯类别。在这种情况下,可能会降低识别结果的可靠性。为了便于理解,举例进行说明。
例如,对于财经资讯类别,财经资讯类别的关键词可以是股票名称。假定某只股票的名称为“新希望”,则“新希望”这个词至少有两种语义,一种语义是一只股票的名称,另一种语义就是新的希望。在现有技术中,通过全文匹配,从资讯数据中识别股票名称,若通过匹配,确定出该资讯数据中包含“新希望”这个词(即为识别结果),则可以认为该资讯数据涉及了“新希望”这只股票,进而可以将股票名称“新希望”与该资讯数据进行关联,以便于关注财经资讯数据的用户通过股票名称“新希望”,查询到该资讯数据。
但是,实际应用中,该资讯数据可能并非是财经资讯数据(也即,该资讯数据属于财经资讯类别),该资讯数据中出现的“新希望”这个词的语义可能就是新的希望,而并非是股票名称,在这种情况下,若按照现有技术进行识别,则会得到不可靠的识别结果;不仅如此,即使该资讯数据是财经资讯数据,该资讯数据中出现“新希望”这个词的语义仍然有可能是新的希望,而并非是股票名称。
上面对背景技术中提到的现有技术的问题进行了举例说明。除了上述的全文匹配的识别方式以外,在现有技术中,还可以采用人工方式进行识别,比如,可以由编辑人工通过阅读资讯数据,根据资讯数据的实际内容人工识别关键词,这种方式相比于前一种现有技术,可以提高识别结果的可靠性,但是,会耗费大量的人工资源,效率较低。
本申请的方案可以部分或全部地解决上述的两种现有技术中的问题,下面对本申请的方案进行说明。
图1为本申请实施例提供的一种资讯数据处理方法的过程,该过程的执行主体可以是终端机器或服务器。其中,可作为所述终端机器的设备包括但不限于:手机、平板电脑、智能手表、车载移动台、个人计算机等;可作为所述服务器的设备包括但不限于:个人计算机、大中型计算机、计算机集群等。执行主体并不构成对本申请的限定。
图1中的过程可以包括以下步骤:
S101:获取待处理资讯数据。
在本申请实施例中,所述待处理资讯数据可以是任意资讯类别的资讯数据。在实际应用中,待处理资讯数据可以包含待处理的一篇资讯或多篇资讯,相应地,可以分别针对待处理的每篇资讯或每多篇资讯,执行一次本申请的方案。本申请对待处理资讯数据的具体格式和发布平台等信息并不做限定
在本申请实施例中,对获取的待处理资讯数据的表现形式也不做限定。待处理资讯数据可以是文本、图片、音频、视频等表现形式的资讯数据。
在本申请实施例中,待处理资讯数据本身可以不是原始资讯数据,而是为了便于处理,对原始资讯数据进行了预处理后得到的资讯数据;进一步地,在待处理资讯数据本身即是原始资讯数据的情况下,可以在获取到待处理资讯数据后的处理过程中,再对待处理资讯数据进行所述预处理中包含的处理操作。
其中,所述预处理可以是诸如全半角归一化处理、大小写处理、分词处理、同义词处理等针对文本进行的处理。对于图片、音频、视频等表现形式的资讯数据,预处理还可以包括诸如光学字符识别(Optical Character Recognition,OCR)、语音识别、视频识别等用于从图片、音频、视频中提取内容文本的处理。预处理有利于提高本申请的方案的可靠性和执行效率。
S102:当判定所述待处理资讯数据属于指定资讯类别时,提取所述待处理资讯数据的主题词。
在本申请实施例中,资讯类别是根据资讯数据的主题信息进行划分的,每类主题信息可以分别对应于一种资讯类别。常见的资讯类别有:财经资讯类别、体育资讯类别、娱乐资讯类别、军事资讯类别、教育资讯类别、科技资讯类别,等等。
资讯数据的主题信息可以反映资讯数据的主要内容所属的主题。在实际应用中,资讯的主题信息可以是资讯的标题信息,可以是资讯中的关键语句或段落,可以是对资讯的部分或全部内容进行提炼后获得的概要信息,可以是资讯所在网页的元信息,等等。
在本申请实施例中,在待处理资讯数据中,可以针对一个资讯类别,或者或多个资讯类别对应的关键词进行识别。为了便于描述,以下实施例主要是基于针对一个资讯类别对应的关键词进行识别的场景,对本申请的方案进行说明的。
在本申请实施例中,在获取待处理资讯数据后,可以判定待处理资讯数据是否属于指定资讯类别;若是,则可以执行步骤S102;否则,可以针对待处理资讯数据终止图1中的过程,这种情况下,可以认为未识别出待处理资讯数据中的关键词,或者可以确定或推定待处理资讯数据中并不包含待识别的关键词。具体地,可以基于分类模型,或者,基于待处理资讯数据本身包含的类别标签等方式,判定待处理资讯数据是否属于指定资讯类别。
在本申请实施例中,可以基于相关的主题词提取算法,提取待处理资讯数据的主题词。所述主题词提取算法可以是:词频-逆文档频率(term frequency–inverse documentfrequency,TF-IDF)算法、Latent Dirichlet Allocation(LDA)算法、ProbabilisticLatent Semantic Analysis(pLSA)算法等。
进一步地,还可以基于任一已有的主题词提取算法,对该主题词提取算法进行修改或改进,再采用修改或改进后的主题词提取算法,提取待处理资讯数据的主题词。
S103:将提取出的部分或全部的所述主题词与所述指定资讯类别对应的关键词进行匹配,以从各所述关键词中,确定与至少一个所述主题词匹配成功的关键词。
在本申请实施例中,所述指定资讯类别对应的关键词可以有一个或多个(所述关键词可以预先地确定,或者实时地确定)。需要说明的是,在各所述关键词中,有的关键词本身可能具有不止一种语义,对于这样的关键词,当将该关键词称为“与指定资讯类别对应的关键词”时,可以认为该关键词的语义为:该关键词的各语义中,与指定资讯类别对应的一种或多种语义。
例如,财经资讯类别对应的关键词之一可以是股票名称“新希望”,“新希望”这个关键词至少有股票名称“新希望”、新的希望这两种语义。在实施本申请的方案时,若指定资讯类别为财经资讯类别,预定的、财经资讯类别对应的关键词为“新希望”,由于股票名称“新希望”是与财经资讯类别对应的,因此,可以认为关键词“新希望”的语义为:股票名称“新希望”。
在本申请实施例中,可以用提取出的待处理资讯数据的主题词替代待处理资讯数据全文(后者对应的方式属于现有技术),与各关键词进行匹配,以识别待处理资讯数据中的关键词,减少了匹配过程的工作量,而且通过步骤S102,提取出的待处理资讯数据的主题词有很大概率是对应于指定资讯类别的,从而降低了多义关键词对于识别的干扰,因此,本申请的方案识别效率较高,而且识别结果的可靠性也较高。
在本申请实施例中,将提取出的部分或全部的所述主题词与所述指定资讯类别对应的关键词进行匹配,具体可以包括:将提取出的部分或全部的所述主题词中的每个主题词,分别与所述指定资讯类别对应的各关键词中的每个关键词进行匹配。
在本申请实施例中,对于步骤S103,在将主题词与关键词进行匹配时,若确定该关键词即为该主题词,或者,该关键词为该主题词连续的一部分,则可以确定匹配成功,否则,可以确定匹配失败。
另外,在实际应用,主题词也有可能是关键词的同义词,但该主题词可能并未包含该关键词,对于这种情况,为了提高识别的可靠性,可以额外地进行同义词处理(比如,将同义词进行关联,或者,将同义词进行统一等)后,再进行识别。当然,同义词处理也可以在步骤S103之前执行,比如,在预处理时执行等。
在本申请实施例中,确定某关键词与至少一个所述主题词匹配成功,即意味着:在待处理资讯数据中识别到所述某关键词。
在识别到关键词后,可以根据实际应用场景,执行相应的后续动作。比如,可以对将出现在待处理资讯数据中的该关键词进行标记,或者,建立待处理资讯数据与该关键词的关联关系,等等。本申请对所述后续动作并不做限定。
需要说明的是,图1中的各步骤的执行主体均可以是同一设备,或者,该方法也由不同设备作为执行主体。比如,步骤S101和步骤S102的执行主体可以为设备1,步骤103的执行主体可以为设备2;又比如,步骤S101的执行主体可以为设备1,步骤S102和步骤S103执行主体可以为设备2;等等。
通过上述方法,对于指定资讯类别对应的各关键词,在各待处理资讯数据中识别这些关键词时,可以根据各待处理资讯数据的主题信息和主题词进行识别,对于不属于指定资讯类别的待处理资讯数据,待处理资讯数据的关键词一般未包含在所述各关键词中,则可以不进行后续步骤,而对于属于指定资讯类别的待处理资讯数据,可以根据待处理资讯数据的主题词,在待处理资讯数据中识别各关键词,识别出的关键词在待处理资讯数据中的语义,有很大概率是对应于指定资讯类别的,因此,相比于上述的第一种现有技术,可以提高识别结果的可靠性。
不仅如此,本申请的方案相比上述的第二种现有技术,无需人工识别,因此,可以减少对人工资源的消耗,而且效率也较高。
综上所述,本申请的方案可以部分或全部地解决上述两种现有技术中的问题。
基于上述方法,本申请实施例还提供了上述方法的一些具体实施方案,以及扩展方案,下面进行说明。
在本申请实施例中,可以在获取待处理资讯数据后,对待处理资讯数据进行预处理,进而,后续步骤均可以基于预处理后的待处理资源执行。当然,预处理也可以不统一进行,而是在执行不同的步骤时,分别根据各步骤的实际需求单独执行,不同步骤对应的预处理的具体内容可以不相同,取决于步骤的具体实施方式。
以步骤S102为例,可以按照如下方式,判定所述待处理资讯数据是否属于指定资讯类别:对所述待处理资讯数据进行预处理;根据预处理后的所述待处理资讯数据,判定所述待处理资讯数据是否属于指定资讯类别;
所述预处理可以包括以下至少一项:
全半角归一化处理、大小写处理、分词处理、同义词处理。其中,同义词处理可以指对待处理资讯数据中的同义词进行关联或统一等,比如,“纽约”和“New York”互为对方的同义词,若待处理资讯数据中出现的“纽约”和/或“New York”,可以相互进行关联,则后续匹配时,可以对关联的词分别进行一次识别,以防漏掉同义词,从而可以提高识别结果的可靠性。
在本申请实施例中,对于步骤S102,可以按照如下方式,判定所述待处理资讯数据是否属于指定资讯类别:通过分类模型,对所述待处理资讯数据进行分类;根据所述分类结果,判定所述待处理资讯数据是否属于指定资讯类别;其中,所述分类模型是采用以下至少一类信息作为样本训练出来的:
属于所述指定资讯类别的资讯数据;
属于所述指定资讯类别以外的其他资讯类别的资讯数据。
在实际应用中,所述分类模型可以是:选择决策树、朴素贝叶斯、支持向量机(Support Vector Machine,SVM)等模型。当采用有监督的分类方式时,在训练模型时,可以将属于指定资讯类别的资讯数据(比如,收集的各大网站的属于指定资讯类别的各资讯数据)作为正样本,将属于所述指定资讯类别以外的其他资讯类别的资讯数据(比如,收集的各大网站的属于指定资讯类别以外的其他资讯类别的各资讯数据)作为负样本,分类训练获得所述分类模型。
需要说明的是,在该实施例中,也可以将方案中的待处理资讯数据替换为预处理后的待处理资讯数据,再执行。为了便于描述,后面的实施例主要用待处理资讯数据描述方案,而不再用预处理后的待处理资讯数据赘述一遍所述方案。
在本申请实施例中,对于步骤S102,提取所述待处理资讯数据的主题词,具体可以包括:对所述待处理资讯数据进行过滤,以过滤掉所述待处理资讯数据中的指定内容;提取过滤后的所述待处理资讯数据的主题词。
所述指定内容可以是:与待处理资讯数据的标题或正文中的内容关联不大的附加内容。比如,所述待处理资讯数据的作者名称、所述待处理资讯数据的发表机构名称、所述待处理资讯数据的发表刊物名称等。
而在实际应用中,指定内容却又有可能包含有待识别的关键词,由于通过对关键词进行识别的目的一般是为了发现关联词与资讯标题或正文中内容的关联,因此,指定内容有可能会干扰识别结果(指定内容包含的关键词可能被作为主题词提取出来),针对这种问题,可以在识别前先将指定内容过滤掉,再进行识别,从而,可以提高识别结果的可靠性。
以指定资讯类别为财经资讯类别,关键词为股票名称为例。
对于属于财经资讯类别的待处理资讯数据,其作者名称、发表机构名称、发表刊物名称中可能包含有特定股票名称,而待处理资讯数据的标题和正文内容中有较大概率与该特定股票名称关联不大。比如,由公司A发表的资讯,通常会在结尾处注明“来自公司A”(即为该资讯的发表机构名称),但该资讯的标题和正文内容通常与新浪无关,但“公司A”这个词很可能公司A的股票的名称,在这种情况下,若不对发表机构名称进行过滤,则很有很能会将“公司A”作为该资讯的主题词提取出来,进而可以将该主题词与股票名称“公司A”匹配成功(也即,从该资讯中识别出股票名称“公司A”),这样的识别结果是不可靠的,因为,该资讯实际上与股票名称“公司A”无关。
根据上例可以可知,在本申请实施例中,由于可以对待处理资讯数据中的指定内容过滤掉后再识别关键词,因此,可以防止指定内容对识别结果的干扰,从而可以提高提别结果的可靠性。
在本申请实施例中,对于步骤S102,提取所述待处理资讯数据的主题词,具体可以包括:基于TF-IDF算法,提取所述待处理资讯数据的主题词;或者,基于TF-IDF算法,提取过滤掉指定内容后的待处理资讯数据的主题词。需要说明的是,TF-IDF算法只是用于本申请的方案的一种算法示例,前面还列举了几种其他可用算法。为了便于描述,下面主要基于TF-IDF算法继续对本申请的方案进行说明。
采用TF-IDF算法,可以分别计算出待处理资讯数据中的各词的权重,进而,根据各词的权重,将权重较高的一部分词作为提取出的待处理资讯数据的主题词。
其中,TF-IDF算法的权重计算公式为:TF*IDF;
通过该权重计算公式,可以分别计算出待处理资讯数据中的每个词的权重,在该权重公式中,当前词的TF(称为:词频)表示当前词在待处理资讯数据中出现的频率,IDF(称为:逆文档频率),对于当前词的IDF,可以由总资讯数目除以包含当前词的文件数目,再将得到的商取对数得到。
一般地,可以认为,在待处理资讯数据中,权重越高的词对于待处理资讯数据越重要,因此,也越有资格作为待处理资讯数据的主题词,可以将权重相对较高的一部分词作为从待处理资讯数据中提取的主题词。
需要说明的是,上述的权重计算公式主要是基于词频计算的权重,在实际应用中,除了词频以外,还有其他的因素也可以影响词对于待处理资讯数据的重要性,比如,词在待处理资讯数据中的所处位置(位置靠前的词可能比位置靠后的词重要)、词性(比如,名词、动词等不同词性的词的重要性可能不同)、长度(比如,长度较长的词可能比长度较短的词重要),等等。根据以上分析,除了上述的权重计算公式以外,还可以考虑除了词频以外的、可以影响词对于待处理资讯数据的重要性的其他因素,综合地计算待处理资讯数据中的各词的权重,以提高对于待处理资讯数据的主题词的提取结果的可靠性。
在本申请实施例中,对于步骤S102,也可以不直接采用TF-IDF算法计算权重,而是对TF-IDF算法进行修改,再用修改后得到的算法计算权重。本申请实施例提供了一种修改方式作为示例:
具体地,基于TF-IDF算法,提取所述待处理资讯数据的主题词,可以包括:基于TF-IDF算法,对TF-IDF算法中的权重计算公式进行修改;基于修改后的所述权重计算公式,提取所述待处理资讯数据的主题词;
所述修改包括以下至少一项:
将所述权重计算公式中的词频替换为:所述词频与指定词频的比值,其中,所述指定词频为所述待处理资讯数据中各词的词频中第N高的词频,N为不小于2的整数;
将所述权重计算公式中的逆文档频率替换为:第一逆文档频率与第二逆文档频率的差值,其中,所述第一逆文档频率为基于所述指定资讯类别的资讯数据集合,计算的逆文档频率,所述第二逆文档频率为基于任意资讯类别的资讯数据集合,计算的逆文档频率。一般地,任意资讯类别的资讯数据集合具体可以是:多个资讯类别的资讯数据集合之和,比如,一个或多个门户网站上面的所有资讯数据等。
上述的两项修改均是将绝对的值替换为相对的值,在某些应用场景(比如,在资讯中识别股票名称的场景等)下,所述相对的值更具有参考性,后续的识别效果也会更好。
在本申请实施例中,在提取出待处理资讯数据的各主题词后,相应地,可以确定出各主题词的权重。进而可以将各主题词与各关键词进行匹配,或者,为了提高匹配效率,也可以不将全部主题词与各关键词进行匹配,而是可以只将部分权重较高的主题词与各关键词进行匹配即可。
具体地,对于步骤S103,将提取出的部分所述主题词与所述指定资讯类别对应的关键词进行匹配,以从各所述关键词中,确定与至少一个所述主题词匹配成功的关键词,具体可以包括:根据提取出的所述待处理资讯数据的各主题词的权重,从提取出的全部的所述主题词中,筛选出部分主题词,其中,所述部分主题词中的每个主题词的权重均不小于未被筛选出的任一主题词的权重;将所述部分主题词与所述指定资讯类别对应的关键词进行匹配,以从各所述关键词中,确定与所述部分主题词中的至少一个主题词匹配成功的关键词。
需要说明的是,本申请对所述部分的具体数目并不做限定,可以根据实际情况设定。
上面对本申请实施例提供的一种资讯数据处理方法进行了详细说明。在实际用用中,资讯数据处理方法可以用于在任意资讯数据中识别指定资讯类别对应的关键词,比如,指定资讯类别可以为财经资讯类别,则各关键词可以为预定的各股票名称,针对这种情况,基于与图1中的方法同样的思路,本申请实施例还提供另一种资讯数据处理方法,用于在资讯数据中识别各股票名称,如图2所示。
图2为本申请实施例提供的另一种资讯数据处理方法的过程,图2中的过程可以包括如下步骤:
S201:获取待处理资讯数据。
S202:当判定所述待处理资讯数据属于财经资讯类别时,提取所述待处理资讯数据的主题词。
S203:将提取出的部分或全部的所述主题词与预定的各股票名称进行匹配,以从所述各股票名称中,确定与至少一个所述主题词匹配成功的股票名称。
通过所述另一种资讯数据处理方法,对于预定的各股票名称,在各待处理资讯数据中识别各股票名称时,可以根据各待处理资讯数据的主题信息和主题词进行识别,对于不属于财经资讯类别的待处理资讯数据,待处理资讯数据的关键词一般未包含在各股票名称中,则可以不进行后续步骤,而对于属于财经资讯类别的待处理资讯数据,可以根据待处理资讯数据的主题词,在待处理资讯数据中识别各股票名称,识别出的股票名称在待处理资讯数据中的语义,有很大概率确实是表示股票名称而非其他意思,因此,相比于现有技术,可以提高识别结果的可靠性。
为了便于理解,本申请实施例还提供了在实际应用中,在资讯数据中识别股票名称的方法的详细过程,如图3所示。
在图3中,上述的指定资讯类别为财经资讯类别,上述的各关键词为预定的各股票名称。
图3中的过程可以包括以下步骤:
S301:资讯数据文本接入。
S302:对资讯数据文本进行预处理。
后续步骤可以是基于预处理后的资讯数据文本执行的。
S303:判定该资讯数据是否属于财经资讯类别,若是,执行步骤S304,否则,执行步骤S305。
S304:提取该资讯数据的主题词。
其中,在提取前,可以将该资讯数据中的指定内容过滤掉再提取。指定内容可以是:该资讯数据的作者名称、发表机构名称、发表刊物名称等。
S305:取消。
步骤S305具体可以包括:取消对该资讯数据的识别,或者,推定该资讯数据中未包含待识别的股票名称,等等。
S306:将提取出的部分或全部主题词与预定的各股票名称进行匹配,判断是否存在与至少一个主题词匹配成功的股票名称,若是,执行步骤S307,否则,执行步骤S308。
S307:确定与至少一个主题词匹配成功的股票名称,将确定的各股票名称作为从该资讯数据中识别出的股票名称。
进一步地,还可以将识别结果保存至数据库中,和/或将识别结果输出至前端显示。
S308:取消。
在执行完图3的过程后,可以在该资讯数据中对识别出的股票名称进行标记,和/或建立该资讯数据与识别出的股票名称的关联关系,等等。
本申请实施例提供的在资讯数据中识别股票名称的方法,相比于全文匹配的识别方法,可以提高对资讯数据中识别股票名称的识别结果的可靠性和准确性,相比于人工识别的方法,可以提高效率。
以上为本申请实施例提供的资讯数据处理方法,基于同样的思路,本申请实施例还提供相应的资讯数据处理装置,如图4、图5所示。
图4为本申请实施例提供的对应于图1的资讯数据处理装置结构示意图,该装置包括:
获取模块401,用于获取待处理资讯数据;
判定提取模块402,用于当判定所述待处理资讯数据属于指定资讯类别时,提取所述待处理资讯数据的主题词;
匹配模块403,用于将提取出的部分或全部的所述主题词与所述指定资讯类别对应的关键词进行匹配,以从各所述关键词中,确定与至少一个所述主题词匹配成功的关键词。
可选地,判定提取模块402具体用于:对所述待处理资讯数据进行预处理;根据预处理后的所述待处理资讯数据,判定所述待处理资讯数据是否属于指定资讯类别;所述预处理包括以下至少一项:
全半角归一化处理、大小写处理、分词处理、同义词处理。
可选地,判定提取模块402具体用于:通过分类模型,对所述待处理资讯数据进行分类;根据所述分类结果,判定所述待处理资讯数据是否属于指定资讯类别;其中,所述分类模型是采用以下至少一类信息作为样本训练出来的:
属于所述指定资讯类别的资讯数据;
属于所述指定资讯类别以外的其他资讯类别的资讯数据。
可选地,判定提取模块402具体用于:对所述待处理资讯数据进行过滤,以过滤掉所述待处理资讯数据中的指定内容;提取过滤后的所述待处理资讯数据的主题词;所述指定内容包括以下至少一种:
所述待处理资讯数据的作者名称、所述待处理资讯数据的发表机构名称、所述待处理资讯数据的发表刊物名称。
可选地,判定提取模块402具体用于:基于TF-IDF算法,提取所述待处理资讯数据的主题词。
可选地,判定提取模块402具体用于:基于TF-IDF算法,对TF-IDF算法中的权重计算公式进行修改;基于修改后的所述权重计算公式,提取所述待处理资讯数据的主题词;所述修改包括以下至少一项:
将所述权重计算公式中的词频替换为:所述词频与指定词频的比值,其中,所述指定词频为所述待处理资讯数据中各词的词频中第N高的词频,N为不小于2的整数;
将所述权重计算公式中的逆文档频率替换为:第一逆文档频率与第二逆文档频率的差值,其中,所述第一逆文档频率为基于所述指定资讯类别的资讯数据集合,计算的逆文档频率,所述第二逆文档频率为基于任意资讯类别的资讯数据集合,计算的逆文档频率。
可选地,判定提取模块402还用于:确定提取出的所述待处理资讯数据的各主题词的权重;
匹配模块403具体用于:根据提取出的所述待处理资讯数据的各主题词的权重,从提取出的全部的所述主题词中,筛选出部分主题词,其中,所述部分主题词中的每个主题词的权重均不小于未被筛选出的任一主题词的权重;将所述部分主题词与所述指定资讯类别对应的关键词进行匹配,以从各所述关键词中,确定与所述部分主题词中的至少一个主题词匹配成功的关键词。
可选地,所述指定资讯类别为财经资讯类别,所述各关键词为预定的各股票名称。
图4中的装置具体可以位于终端机器或服务器上。
图5为本申请实施例提供的对应于图2的资讯数据处理装置结构示意图,该装置包括:
获取模块501,用于获取待处理资讯数据;
判定提取模块502,用于当判定所述待处理资讯数据属于财经资讯类别时,提取所述待处理资讯数据的主题词;
股票名称匹配模块503,用于将提取出的部分或全部的所述主题词与预定的各股票名称进行匹配,以从所述各股票名称中,确定与至少一个所述主题词匹配成功的股票名称。
图5中的装置具体可以位于终端机器或服务器上。
本申请提供的装置是与本申请提供的方法一一对应的,因此,装置也具有与其对应的方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述对应的装置的有益技术效果。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。