CN101789872B

CN101789872B - 基于互联网的信息处理方法

Info

Publication number: CN101789872B
Application number: CN 200910077556
Authority: CN
Inventors: 蔡亮华; 庞然; 胡新宇
Original assignee: Individual
Current assignee: Individual
Priority date: 2009-01-22
Filing date: 2009-01-22
Publication date: 2012-12-26
Anticipated expiration: 2029-01-22
Also published as: CN101789872A

Abstract

本发明公开了一种基于互联网的信息处理方法，包括：利用神经网络价值模型对已知价值事物的属性参数进行处理，得到已知价值事物的拟价值参数；比较其与已知价值事物的价值参数的大小，得到一个差值；比较该差值与预设阈值的大小，若差值大于预设阈值，则根据差值修正神经网络价值模型中的模型参数，并利用神经网络价值模型对已知价值事物的属性参数进行处理；若差值小于或等于预设阈值，则利用神经网络价值模型对未知价值事物的属性参数进行处理，得到未知价值事物的价值参数。本发明通过利用已知价值事物的属性参数和价值参数来修正神经网络价值模型中的模型参数，用以获取未知价值事物的价值参数，实现了对事物价值的客观、全面、量化的评价。

Description

基于互联网的信息处理方法

技术领域

本发明涉及信息处理技术，特别涉及一种基于互联网的信息处理方法。

背景技术

随着互联网技术的不断成熟，其在媒体中的作用也越来越重要。不仅互联网成为了传统新闻发布的渠道，而且越来越多的具有影响力的事物开始通过互联网传播其理念，逐步形成了以互联网等新媒体为基础的影响力经济，对社会的发展起着极其深远的影响。

因此，在互联网上各种价值排行榜应运而生。它们主要应用网络爬虫来获取信息，然后依据获取到的信息对事物价值进行评价。网络爬虫是一个自动提取网页的程序，它从互联网上下载和获取网页，这些互联网网页中可以包括：网络新闻、论坛、博客、聊天室等网络内容；网络爬虫可以从一个或若干初始网页的地址开始，获得初始网页上的地址，在下载和获取网页的过程中，不断从当前页面上抽取新的地址放入队列，直到满足系统设定的停止条件时停止搜索。

但是，互联网中现有的对事物价值的评价方法具有一定的主观性。在互联网中，各种排行榜的形成大多与商业运作密切相关，不能客观评价事物的价值。即使有些对事物价值的评价是以相关数据为依据的，但仅从单一的角度进行评价，使得评价体系不够完整，无法精确测量各种评价参数与价值之间的潜在关系，因此不能全面地评价事物的价值。这使得对事物价值精确度要求高的商业运作存在风险，无法客观全面地评价事物的价值，进而限制了相关行业的良性发展。

神经网络模型是一种模拟动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种神经网络模型依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而实现处理信息的目的。神经网络模型具有自学习和自适应的能力，可以通过预先提供的一批相互对应的输入-输出数据，得到两者之间潜在的规律，最终根据这些规律，用新的输入数据来推算出结果。

发明内容

本发明的目的是提供一种基于互联网的信息处理方法，以客观全面地评价事物的价值。

为实现上述目的，本发明提供了一种基于互联网的信息处理方法，包括：

抓取所述已知价值事物的相关信息；

对所述信息进行切词处理，将所述信息切割成若干词语；

对所述词语进行聚类操作，将所述词语划分成若干类，得到描述事物的各类的属性；

对所述类的属性进行量化，生成属性参数；

利用神经网络价值模型对已知价值事物的属性参数进行处理，得到所述已知价值事物的拟价值参数；

比较所述拟价值参数与已知价值事物的价值参数的大小，得到所述拟价值参数与所述价值参数的差值；

比较所述差值与预设阈值的大小，若所述差值大于所述预设阈值，则根据所述差值修正所述神经网络价值模型中的模型参数，并利用所述神经网络价值模型对已知价值事物的属性参数进行处理；

若所述差值小于或等于所述预设阈值，则利用所述神经网络价值模型对未知价值事物的属性参数进行处理，得到所述未知价值事物的价值参数。

本发明还提供一种基于互联网的信息处理方法，其特征在于，包括：

抓取所述未知价值事物的相关信息；

对所述信息进行切词处理，将所述信息切割成若干词语；

对所述类的属性进行量化，生成属性参数；

本发明通过提供一种基于互联网的信息处理方法，利用已知价值事物的属性参数和价值参数来修正神经网络价值模型中的模型参数，用以获取未知价值事物的价值参数，实现了对事物价值的客观、全面、量化的评价。

附图说明

图1为本发明基于互联网的信息处理方法第一实施例的流程图；

图2为本发明基于互联网的信息处理方法第二实施例的流程图；

图3为本发明基于互联网的信息处理方法第三实施例的流程图。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

图1为本发明基于互联网的信息处理方法第一实施例的流程图。如图1所示，为了实现对事物价值的客观全面的评价，本发明提出了一种基于互联网的信息处理方法包括：

步骤101、利用神经网络价值模型对已知价值事物的属性参数进行处理，得到已知价值事物的拟价值参数；

在本实施例中，事物的属性参数是指事物各类属性(如“歌曲”、“电影”等属性)的量化值。神经网络价值模型由三部分构成，输入层、隐含层和输出层。将已知价值事物的属性参数输入到神经网络价值模型的输入层，已知的价值参数作为输出层，通过具有多个模型参数的隐含层对这些属性参数进行处理，得到已知价值事物的拟价值参数，由于初始得到的价值参数与已知价值事物的真实的价值参数有一定偏离，因此称之为“拟价值参数”。

步骤102、比较该拟价值参数与已知价值事物的价值参数的大小，得到拟价值参数与价值参数的差值，通过该差值判断得到的拟价值参数与已知价值事物的价值参数的偏离程度；

步骤103、比较该差值与预设阈值的大小，若该差值大于预设阈值，则执行步骤104；若该差值小于或等于预设阈值，则执行步骤105；

步骤104、根据该差值修正神经网络价值模型中的模型参数，然后执行步骤101；

预先设定一个阈值，如果差值大于该预设阈值，则说明神经网络价值模型没有达到预期的评价精确度，需要根据该差值来修正其中的模型参数，例如可以利用反向传播(Back Propagation；简称：BP)等算法将模型参数朝着减小该差值的方向调整。神经网络价值模型中的模型参数是指模型中隐含层的各个节点的权值参数，其初始值是随机赋予的，经过修正后，继续利用该神经网络价值模型对其它的已知价值事物的属性参数进行处理，并判断得到的拟价值参数与其价值参数的偏离程度。

步骤105、利用修正好的神经网络价值模型对未知价值事物的属性参数进行处理，得到未知价值事物的价值参数。

当拟价值参数与价值参数的差值小于或等于预设阈值时，说明神经网络价值模型输出的拟价值参数已达到预期的评价精度，因此可以用于处理未知价值事物的属性参数，以获得未知价值事物的价值参数。根据对评价精度的不同要求，可以设置不同的预设阈值，例如，当对评价精度要求较高时，可以设置一个相对较小的预设阈值，相反，当对评价精度要求较低时，可以设置一个相对较大的预设阈值。

在本实施例中，已知价值事物的属性参数来自于互联网，已知价值事物的价值参数为该事物在现实生活中的真实价值，例如某名人的广告价格，可以根据广告公司的渠道获得。对于多个已知价值事物，本发明通过提供一种基于互联网的信息处理方法，利用其属性参数和已知的价值参数来修正神经网络价值模型的模型参数，用以获取未知价值事物的价值参数，实现了对事物价值的客观全面的评价。

图2为本发明基于互联网的信息处理方法第二实施例的流程图。如图2所示，为了更加客观全面地反映事物的价值，本发明还提供了一种基于互联网的信息处理方法，在上述第一实施例的步骤101之前，还包括：

步骤201、在互联网上，利用爬虫技术抓取已知价值事物的相关信息；

步骤202、对抓取的信息进行切词处理，将该信息切割成若干词语；

根据已有词库对抓取的信息进行切词处理，将该信息切割成多个词语。也就是将所抓取的信息与已有词库中的词语进行比对，切割成多个存在于已有词库中的词语。在此，已有词库是一个事先存储了大量常用词语及其语义的存储库，并且该已有词库的内容可通过互联网不断扩充。

步骤203、对切割成的若干词语进行聚类操作，将其划分成若干类，得到描述事物的各类的属性；

根据切割成的词语在抓取到的信息中的词频对其进行聚类操作，将其划分成若干类，并在语义库中根据各类中词语的语义及所占比例得到各类的属性，也就是各类的语义属性。此处，语义库是一个描述词语在当前互联网环境下，各种语义属性占比大小的二维存储库。例如，某一类中的具有“电影”语义的词语所占的比例最大，则该类为“电影”类。

步骤204、对各类的属性进行量化，生成属性参数。

根据词语在抓取到的信息中的词频对各类的属性进行量化。例如，属性为“电影”的类中，语义为“电影”的各个词语的词频分别为a、b、c、…、n，则该“电影”类的属性参数即为：a+b+c+…+n；或者可以根据各词语与其语义“电影”的相似度给其词频设置权值，如该“电影”类的属性参数也可为：a+b*90％+c*80％+…+n*70％等。

本发明通过提供一种基于互联网的信息处理方法，从互联网上获取已知价值事物的相关信息，并形成属性参数，利用该属性参数和已知的价值参数来修正神经网络价值模型的模型参数，用以获取未知价值事物的价值参数，实现了对事物价值更加客观、全面、量化的评价。

图3为本发明基于互联网的信息处理方法第三实施例的流程图。如图3所示，为了更加客观全面地反映事物的价值，本发明还提供了一种基于互联网的信息处理方法，在上述第一实施例的步骤105之前，还包括：

步骤301、在互联网上，利用爬虫技术抓取未知价值事物的相关信息；

步骤302、对抓取的信息进行切词处理，将该信息切割成若干词语；

步骤303、对切割成的若干词语进行聚类操作，将其划分成若干类，得到描述事物的各类的属性；

步骤304、对各类的属性进行量化，生成属性参数。

本实施例中对未知价值事物的操作过程如上述第二实施例中对已知价值事物的操作过程的具体描述，在此不再赘述。

本发明通过提供一种基于互联网的信息处理方法，利用已知价值事物的属性参数和价值参数来修正神经网络价值模型的模型参数，并从互联网上获取未知价值事物的相关信息，形成属性参数，用以获取未知价值事物的价值参数，实现了对事物价值更加客观、全面、量化的评价。

最后应说明的是：以上实施例仅用以说明本发明的技术方案而非对其进行限制，尽管参照较佳实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对本发明的技术方案进行修改或者等同替换，而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

Claims

1.一种基于互联网的信息处理方法，其特征在于，包括：

抓取所述已知价值事物的相关信息；

对所述信息进行切词处理，将所述信息切割成若干词语；

对所述类的属性进行量化，生成属性参数；

2.根据权利要求1所述的基于互联网的信息处理方法，其特征在于，所述抓取所述已知价值事物的相关信息，具体为：

通过互联网抓取所述已知价值事物的相关信息。

3.根据权利要求1所述的基于互联网的信息处理方法，其特征在于，所述对所述信息进行切词处理，具体为：

根据已有词库对所述信息进行切词处理。

4.根据权利要求1所述的基于互联网的信息处理方法，其特征在于，所述对所述词语进行聚类操作，将所述词语划分成若干类，得到描述事物的各类的属性，具体为：

根据所述词语的词频对所述词语进行聚类操作，将所述词语划分成若干类，并通过各类中词语的语义及所占比例得到各类的属性。

5.根据权利要求1述的基于互联网的信息处理方法，其特征在于，所述对所述类的属性进行量化，具体为：

根据所述词语的词频对所述类的属性进行量化。

6.一种基于互联网的信息处理方法，其特征在于，包括：

抓取所述未知价值事物的相关信息；

对所述信息进行切词处理，将所述信息切割成若干词语；

对所述类的属性进行量化，生成属性参数；

7.根据权利要求6所述的基于互联网的信息处理方法，其特征在于，所述抓取所述未知价值事物的相关信息，具体为：

通过互联网抓取所述未知价值事物的相关信息。

8.根据权利要求6所述的基于互联网的信息处理方法，其特征在于，所述对所述信息进行切词处理，具体为：

根据已有词库对所述信息进行切词处理。

9.根据权利要求6所述的基于互联网的信息处理方法，其特征在于，所述对所述词语进行聚类操作，将所述词语划分成若干类，得到描述事物的各类的属性，具体为：

10.根据权利要求6述的基于互联网的信息处理方法，其特征在于，所述对所述类的属性进行量化，具体为：

根据所述词语的词频对所述类的属性进行量化。