CN113792210B

CN113792210B - 一种基于语义实时分析的热控方法及系统

Info

Publication number: CN113792210B
Application number: CN202110956575.0A
Authority: CN
Inventors: 杨建仁
Original assignee: Guangzhou Clouddcs Co ltd
Current assignee: Guangzhou Clouddcs Co ltd
Priority date: 2021-08-19
Filing date: 2021-08-19
Publication date: 2022-09-09
Anticipated expiration: 2041-08-19
Also published as: CN113792210A

Abstract

本发明提供了一种基于语义实时分析的热控方法及系统，通过网络爬虫技术实时采集互联网网页数据和搜索排名的关键词并将采集到的互联网网页数据以其不同的URL划分为多个不同的文本文件进行存储，将读取到的多个不同的字符串通过分词算法切分为多个不同的分词数组得到集合Cps，根据计算搜索排名的关键词在集合Cps中各分词数组的多个关联序列，选取多个关联序列中关键词热度最高的一个关联序列作为关键关联序列发送到客户端，实现了根据实时的搜索热词对多个相关文本的信息筛选和信息提取，达到了根据实时的搜索关键词进行实时分析和热控。

Description

一种基于语义实时分析的热控方法及系统

技术领域

本发明属于信息处理技术领域，具体涉及一种基于语义实时分析的热控方法及系统。

背景技术

互联网是现在人们搜索获取关键信息和人们话题的重要途径，在现代信息传播中具有重要的意义。当前的热控监测系统在互联网的大规模信息的处理方面，利用了人工智能和分布式大数据技术的监控系统，在公开号为CN109582801A的公开中所述的一种基于情感分析热点事件跟踪及分析的方法，尽管可通过用户操作模块将需要分析的热点事件相关关键词的原始文本输入到整个分析系统内并达到了通过识别关键词文本中情感文本来准确的理解关键词词义的目的，但是不利于对实时的搜索系统的热搜关键词进行高效地信息提取。

发明内容

本发明的目的在于提出一种基于语义实时分析的热控方法及系统，以解决现有技术中所存在的一个或多个技术问题，至少提供一种有益的选择或创造条件。

本发明提供了一种基于语义实时分析的热控方法及系统，通过网络爬虫技术实时采集互联网网页数据和搜索排名的关键词并将采集到的互联网网页数据以其不同的URL划分为多个不同的文本文件进行存储，将读取到的多个不同的字符串通过分词算法切分为多个不同的分词数组得到集合Cps，根据计算搜索排名的关键词在集合Cps中各分词数组的多个关联序列，选取多个关联序列中关键词热度最高的一个关联序列作为关键关联序列发送到客户端，实现了根据实时搜索热词对多个相关文本的信息筛选和信息提取，达到了根据实时的搜索关键词进行实时分析和热控。

为了实现上述目的，根据本公开的一方面，提供一种基于语义实时分析的热控方法，所述方法包括以下步骤：

S100，通过网络爬虫技术实时采集互联网网页数据和搜索排名的关键词；

S200，采集到的互联网网页数据以其不同的URL划分为多个不同的文本文件进行存储；

S300，分别读取多个不同的文本文件为多个不同的字符串，将读取到的多个不同的字符串通过分词算法切分为多个不同的分词数组，将多个不同的分词数组作为集合Cps；

S400，根据搜索排名的关键词，计算搜索排名的关键词在集合Cps中各分词数组的多个关联序列；

S500，计算选取多个关联序列中关键词热度最高的一个关联序列作为关键关联序列；

S600，将关键关联序列发送到客户端。

进一步地，在S100中，通过网络爬虫技术实时采集互联网网页数据和搜索排名的关键词的方法为：通过网络爬虫技术实时采集互联网网页数据、以及搜索排名的热搜关键词，热搜关键词记作关键词，所述互联网网页数据和搜索排名的关键词的获取来源为百度API接口、搜狗API接口、360搜索API接口、必应搜索API接口中的一个或多个搜索API接口，其中，网络爬虫技术包括主题网络爬虫（Topical Crawler）、Fish Search 算法、Sharksearch 算法增量式网络爬虫（Incremental Web Crawler）或者Deep Web 爬虫中任意一种。

进一步地，在S200中，采集到的互联网网页数据以其不同的URL划分为多个不同的文本文件进行存储的方法为：采集到的互联网网页数据以JSON格式进行储存为结构化数据，结构化数据中包含对应的网页数据的字符串数据以及其采集网址的URL，对不同的结构化数据按照其不同的URL分别进行读取各个结构化数据中的字符串数据，对读取到的字符串数据按照不同的URL划分为多个不同的文本文件进行存储。

进一步地，在S300中，分别读取多个不同的文本文件为多个不同的字符串，将读取到的多个不同的字符串通过分词算法切分为多个不同的分词数组，将多个不同的分词数组作为集合Cps的方法为：分别读取多个不同的文本文件中的有效字符信息作为多个不同的字符串，将读取到的每个字符串分别通过中文分词算法进行切分得到多个不同的字符串数组记为分词数组，将多个不同的分词数组的集合记为集合Cps。

进一步地，在S400中，根据搜索排名的关键词，计算搜索排名的关键词在集合Cps中各分词数组的多个关联序列的方法为：将搜索排名的关键词的集合记为集合Querys，记集合Querys中元素的数量为n，集合Querys中的元素的序号为i，i∈[1,n]，有Querys={Q(1),Q(2),…,Q(n-1),Q(n)}，Q(i)表示第i个关键词；

记集合Cps中元素的数量为m，集合Cps中的元素的序号为j，j∈[1,m]，有Cps={Cps(1), Cps(2),…, Cps(m-1), Cps(m)}；

记变量k表示集合Cps中每个分词数组Cps(j)的数组长度，变量h表示分词数组Cps(j)中的字符串的序号， Cps(j,h)表示集合Cps中序号为j的元素中序号为h的字符串，h∈[1,k]，有Cps(j)=[Cps(j,1),Cps(j,1),…, Cps(j,k-1), Cps(j,k)]；

记函数Glv()为通过词嵌入算法计算输入的字符串得到其词向量的函数，Glv(Cps(j,h))表示集合Cps中序号为j的元素中序号为h的字符串通过词嵌入算法得到的词向量，记G(j,h)=Glv(Cps(j,h))，Glv(Q(i))表示集合Querys中序号为i元素的字符串通过词嵌入算法得到的词向量，记Gq(i)= Glv(Q(i))，变量q表示词向量的第q维度，变量p表示词向量的维度数量，G(j,h)[q]表示词向量G(j,h)的第q维度的数值，Gq(i)[q]表示词向量Gq(i)的第q维度的数值；

函数Sim()表示计算输入的两个向量之间的倾向度，函数Sim(Gq(i),G(j,h))表示通过函数Sim()计算词向量Gq(i)和G(j,h)之间的倾向度，倾向度Sim(Gq(i),G(j,h))的计算公式为：

；

计算集合Querys中的各个搜索排名的关键词在集合Cps中各分词数组中的多个关联序列，包括以下步骤

S401，开始程序；令变量i数值为1；创建空集合Chianset，集合Chianset具有互异性及有序性；转到S402；

S402，获取Querys中的序号为i的元素Q(i)；以Q(i)通过函数Glv()获取Gq(i)；转到S403；

S403，令变量j数值为1；转到S404；

S404，获取Cps中的序号为j的元素Cps(j)；创建空数组Simset；转到S405；

S405，令变量h数值为1；转到S406；

S406，获取Cps(j)中的序号为h的元素Cps(j,h)；以Cps(j,h)通过函数Glv()获取G(j,h)；转到S407；

S407，获取Sim(Gq(i),G(j,h))；将Sim(Gq(i),G(j,h))加入数组Simset；转到S408；

S408，判断是否满足约束条件h≧k，若是则转到S4081，若否则转到S4082；

S4081，计算数组Simset中各元素的算数平均值sim_avg，将数组Simset中数值大于sim_avg的各元素的序号的集合作为集合Seq；以集合Seq中的各元素作为目标序号，提取出Cps(j)中的目标序号的元素作为数组Chain，将数组Chain加入集合Chianset中；转到S409；

S4082，将h的数值增加1；转到S406；

S409，令h的数值为1；转到S410；

S410，判断是否满足约束条件j≧m，若是则转到S411，若否则转到S4101；

S4101，将j的数值增加1；转到S404；

S411, 令j的数值为1；转到S412；

S412，判断是否满足约束条件i≧n，若是则转到S413，若否则转到S4121；

S4121，将i的数值增加1；转到S402；

S413，输出集合Chianset；结束程序；

集合Chianset中的各个数组即为对应集合Querys中的各个搜索排名关键词的关联序列，记所得的多个关联序列的集合为集合Litset。

进一步地，在S500中，计算选取多个关联序列中关键词热度最高的一个关联序列作为关键关联序列的方法为：通过搜索API接口获取该时刻在集合Querys中的关键词热度最高的关键词Qri，获取Qri在集合Querys中的序号i，根据序号i在集合Litset中获取对应的序号为i的元素记为Litset(i)，Litset(i)即为所求的关键关联序列。

进一步地，在S600中，将关键关联序列发送到客户端的方法为：将关键关联序列Litset(i)发送到客户端，客户端把Litset(i)中的元素进行字符串拼接并打印显示。

本公开还提供了一种基于语义实时分析的热控系统，所述一种基于语义实时分析的热控系统包括：处理器、存储器及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1中的一种基于语义实时分析的热控方法中的步骤，所述一种基于语义实时分析的热控系统可以运行于桌上型计算机、笔记本、移动电话、手提电话、平板电脑、掌上电脑及云端数据中心等计算设备中，可运行的系统可包括，但不仅限于，处理器、存储器、服务器集群，所述处理器执行所述计算机程序运行在以下系统的单元中：

数据采集单元，用于通过网络爬虫技术实时采集互联网网页数据和搜索排名的关键词；

数据整理单元，用于采集到的互联网网页数据以其不同的URL划分为多个不同的文本文件进行存储；

分词划分单元，用于分别读取多个不同的文本文件为多个不同的字符串并将读取到的多个不同的字符串通过分词算法切分为多个不同的分词数组进而将多个不同的分词数组作为集合Cps；

关联序列计算单元，用于根据搜索排名的关键词计算搜索排名的关键词在集合Cps中各分词数组的多个关联序列；

关键关联序列选取单元，用于计算选取多个关联序列中关键词热度最高的一个关联序列作为关键关联序列；

发送单元，用于将关键关联序列发送到客户端。

本发明的有益效果为：本发明提供了一种基于语义实时分析的热控方法及系统，通过网络爬虫技术实时采集互联网网页数据和搜索排名的关键词，并计算搜索排名的关键词在各分词数组的多个关联序列，进而选取多个关联序列中关键词热度最高的一个关联序列作为关键关联序列发送到客户端，实现了根据实时搜索热词对多个相关文本的信息筛选和信息提取，达到了根据实时的搜索关键词进行实时分析和热控。

附图说明

通过对结合附图所示出的实施方式进行详细说明，本公开的上述以及其他特征将更加明显，本公开附图中相同的参考标号表示相同或相似的元素，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，在附图中：

图1所示为一种基于语义实时分析的热控方法的流程图；

图2所示为一种基于语义实时分析的热控系统的系统结构图。

具体实施方式

以下将结合实施例和附图对本公开的构思、具体结构及产生的技术效果进行清楚、完整的描述，以充分地理解本公开的目的、方案和效果。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

如图1所示为根据本发明的一种基于语义实时分析的热控方法的流程图，下面结合图1来阐述根据本发明的实施方式的一种基于语义实时分析的热控方法及系统。

本公开提出一种基于语义实时分析的热控方法，所述方法具体包括以下步骤：

S600，将关键关联序列发送到客户端。

其中，热搜关键词也可以为为其中任意一个或多个网页页面数据中的文本数据进行分词后出现的频率最高的字符串。

进一步地，在S300中，分别读取多个不同的文本文件为多个不同的字符串，将读取到的多个不同的字符串通过分词算法切分为多个不同的分词数组，将多个不同的分词数组作为集合Cps的方法为：分别读取多个不同的文本文件为多个不同的字符串，将读取到的每个字符串分别通过中文分词算法进行切分得到多个不同的字符串数组记为分词数组，将多个不同的分词数组的集合记为集合Cps。

进一步地，在S400中，根据搜索排名的关键词，计算搜索排名的关键词在集合Cps中各分词数组的多个关联序列的方法为：将搜索排名的关键词的集合记为集合Querys，记集合Querys中元素的数量为n，集合Querys中的元素的序号为i，i∈[1,n]，有Querys={Q(1),Q(2),…,Q(n-1),Q(n)}；

记变量k表示集合Cps中每个分词数组Cps(j)的数组长度，变量h表示分词数组Cps(j)中的字符串的序号，Cps(j,h)表示集合Cps中序号为j的元素中序号为h的字符串，h∈[1,k]，有Cps(j)=[Cps(j,1),Cps(j,1),…, Cps(j,k-1), Cps(j,k)]；

词嵌入算法至少包括Word2Vec、Skip-Gram模型或者GloVe算法中任意一种。

；

S403，令变量j数值为1；转到S404；

S405，令变量h数值为1；转到S406；

S407，以Gq(i)和G(j,h) 通过函数Glv()获取倾向度Sim(Gq(i),G(j,h))；将Sim(Gq(i),G(j,h))加入数组Simset；转到S408；

S4082，将h的数值增加1；转到S406；

S409，令h的数值为1；转到S410；

S4101，将j的数值增加1；转到S404；

S411, 令j的数值为1；转到S412；

S4121，将i的数值增加1；转到S402；

S413，输出集合Chianset；结束程序；

所述一种基于语义实时分析的热控系统包括：处理器、存储器及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述一种基于语义实时分析的热控方法实施例中的步骤，所述一种基于语义实时分析的热控系统可以运行于桌上型计算机、笔记本、掌上电脑及云端数据中心等计算设备中，可运行的系统可包括，但不仅限于，处理器、存储器、服务器集群。

本公开的实施例提供的一种基于语义实时分析的热控系统，如图2所示，该实施例的一种基于语义实时分析的热控系统包括：处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述一种基于语义实时分析的热控方法实施例中的步骤，所述处理器执行所述计算机程序运行在以下系统的单元中：

发送单元，用于将关键关联序列发送到客户端。

所述一种基于语义实时分析的热控系统可以运行于桌上型计算机、笔记本、掌上电脑及云端数据中心等计算设备中。所述一种基于语义实时分析的热控系统包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，所述例子仅仅是一种基于语义实时分析的热控方法及系统的示例，并不构成对一种基于语义实时分析的热控方法及系统的限定，可以包括比例子更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述一种基于语义实时分析的热控系统还可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立元器件门电路或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述一种基于语义实时分析的热控系统的控制中心，利用各种接口和线路连接整个一种基于语义实时分析的热控系统的各个分区域。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述一种基于语义实时分析的热控方法及系统的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据手机的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

尽管本公开的描述已经相当详尽且特别对几个所述实施例进行了描述，但其并非旨在局限于任何这些细节或实施例或任何特殊实施例，从而有效地涵盖本公开的预定范围。此外，上文以发明人可预见的实施例对本公开进行描述，其目的是为了提供有用的描述，而那些目前尚未预见的对本公开的非实质性改动仍可代表本公开的等效改动。

Claims

1.一种基于语义实时分析的热控方法，其特征在于，所述方法包括以下步骤：

S600，将关键关联序列发送到客户端；

其中，在S100中，通过网络爬虫技术实时采集互联网网页数据和搜索排名的关键词的方法为：通过网络爬虫技术实时采集互联网网页数据、以及搜索排名的热搜关键词，热搜关键词记作关键词，所述互联网网页数据和搜索排名的关键词的获取来源为百度API接口、搜狗API接口、360搜索API接口、必应搜索API接口中的一个或多个搜索API接口；

在S300中，分别读取多个不同的文本文件为多个不同的字符串，将读取到的多个不同的字符串通过分词算法切分为多个不同的分词数组，将多个不同的分词数组作为集合Cps的方法为：分别读取多个不同的文本文件中的有效字符信息作为多个不同的字符串，将读取到的每个字符串分别通过中文分词算法进行切分得到多个不同的字符串数组记为分词数组，将多个不同的分词数组的集合记为集合Cps；

在S400中，根据搜索排名的关键词，计算搜索排名的关键词在集合Cps中各分词数组的多个关联序列的方法为：将搜索排名的关键词的集合记为集合Querys，记集合Querys中元素的数量为n，集合Querys中的元素的序号为i，i∈[1,n]，有Querys={Q(1),Q(2),…,Q(n-1),Q(n)}；

记集合Cps中元素的数量为m，集合Cps中的元素的序号为j，j∈[1,m]，有Cps={Cps(1),Cps(2),…, Cps(m-1), Cps(m)}；

记变量k表示集合Cps中每个分词数组Cps(j)的数组长度，变量h表示分词数组Cps(j)中的字符串的序号，Cps(j)表示Cps(j,h)表示集合Cps中序号为j的元素中序号为h的字符串，h∈[1,k]，有Cps(j)=[Cps(j,1),…, Cps(j,k-1), Cps(j,k)]；

S401，设置变量i的值为1；创建空集合Chianset，集合Chianset具有互异性及有序性；转到S402；

S402，获取Querys中的序号为i的元素Q(i)；通过函数Glv()获取Q(i)的Gq(i)；转到S403；

S403，设置变量j的值为1；转到S404；

S405，令变量h的数值为1；转到S406；

S406，获取Cps(j)中的序号为h的元素Cps(j,h)；通过函数Glv()获取Cps(j,h)的G(j,h)；转到S407；

S407，获取倾向度Sim(Gq(i),G(j,h))；将倾向度Sim(Gq(i),G(j,h))加入数组Simset；转到S408；

S4082，将h的数值增加1；转到S406；

S409，令h的数值为1；转到S410；

S410，判断是否满足约束条件j≥m，若是则转到S411，若否则转到S4101；

S4101，将j的数值增加1；转到S404；

S411, 将j的数值设置为1；转到S412；

S412，判断是否满足约束条件i≥n，若是则转到S413，若否则转到S4121；

S4121，将i的数值增加1；转到S402；

S413，得到集合Chianset；

2.根据权利要求1所述的一种基于语义实时分析的热控方法，其特征在于，在S200中，采集到的互联网网页数据以其不同的URL划分为多个不同的文本文件进行存储的方法为：采集到的互联网网页数据以JSON格式进行储存为结构化数据，结构化数据中包含对应的网页数据的字符串数据以及其采集网址的URL，对不同的结构化数据按照其不同的URL分别进行读取各个结构化数据中的字符串数据，对读取到的字符串数据按照不同的URL划分为多个不同的文本文件进行存储。

3.根据权利要求1所述的一种基于语义实时分析的热控方法，其特征在于，在S500中，计算选取多个关联序列中关键词热度最高的一个关联序列作为关键关联序列的方法为：通过搜索API接口获取该时刻在集合Querys中的关键词热度最高的关键词Qri，获取Qri在集合Querys中的序号i，根据序号i在集合Litset中获取对应的序号为i的元素记为Litset(i)，Litset(i)即为所求的关键关联序列。

4.根据权利要求3所述的一种基于语义实时分析的热控方法，其特征在于，在S600中，将关键关联序列发送到客户端的方法为：将关键关联序列Litset(i)发送到客户端，客户端把Litset(i)中的元素进行字符串拼接并打印显示。

5.一种基于语义实时分析的热控系统，其特征在于，所述一种基于语义实时分析的热控系统包括：处理器、存储器及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1中的一种基于语义实时分析的热控方法中的步骤，所述一种基于语义实时分析的热控系统运行于桌上型计算机、笔记本、移动电话、掌上电脑或云端数据中心的计算设备中，可运行的系统包括处理器、存储器、服务器集群。