CN111414455B - 舆情分析方法、装置、电子设备及可读存储介质 - Google Patents

舆情分析方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN111414455B
CN111414455B CN202010199786.XA CN202010199786A CN111414455B CN 111414455 B CN111414455 B CN 111414455B CN 202010199786 A CN202010199786 A CN 202010199786A CN 111414455 B CN111414455 B CN 111414455B
Authority
CN
China
Prior art keywords
document
analysis
correlation
public opinion
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010199786.XA
Other languages
English (en)
Other versions
CN111414455A (zh
Inventor
付琰
陈亮辉
彭炼钢
杨胜文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202010199786.XA priority Critical patent/CN111414455B/zh
Publication of CN111414455A publication Critical patent/CN111414455A/zh
Application granted granted Critical
Publication of CN111414455B publication Critical patent/CN111414455B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种舆情分析方法、装置、电子设备及可读存储介质,涉及大数据技术领域。具体实现方案为:接收来自终端设备的舆情分析请求,所述舆情分析请求包括用户设置的分析关键词。根据所述分析关键词与目标文档集合中各文档的相关性结果,得到与所述分析关键词相关的至少一个文档,所述相关性结果由相关性预测模型使用相关性特征预测得到,所述相关性特征基于所述分析关键词与每个文档预先得到。对所述至少一个文档进行舆情分析,得到针对所述分析关键词的舆情分析结果。向所述终端设备发送所述针对所述分析关键词的舆情分析结果。该方法能够保证相关性计算的准确性和效率,满足实际的舆情分析需要。

Description

舆情分析方法、装置、电子设备及可读存储介质
技术领域
本申请实施例涉及大数据技术领域,尤其涉及一种舆情分析方法、装置、电子设备及可读存储介质。
背景技术
目前,互联网已经成为人们日常生活中不可或缺的一部分,用户可以在互联网上发表观点、传播看法。企业等可以通过对互联网进行舆情监测和分析来获知大众对于产品、事件的舆论看法。舆情分析可以基于舆情系统来完成。舆情系统利用爬虫从互联网采集文档集合,并利用分析关键词从文档集合中召回相关文档,在此基础上进行情感分析、事件聚类等舆论分析。其中,舆情监测和分析中的一项重要内容是对爬虫采集到的文档与用户设置的分析关键词进行相关性计算,以根据相关性从爬虫采集的文档集合中召回相关文档。
现有技术中,可以使用字符串匹配方式或基于语义的匹配方式计算分析关键词与文档的相关性。其中,字符串匹配方式例如可以是根据关键词在文档中出现的次数计算相关性,或者是使用词频-逆向文件频率(Term Frequency–Inverse Document Frequency,简称TF-IDF)计算分析关键词与文档相关性得分。基于语义的匹配方式例如可以是使用线性判别式分析(Linear Discriminant Analysis,简称LDA)计算文档的主题分布,并计算该分布生成分析关键词的概率,或者可以是利用深度学习模型,将分析关键词和文档作为模型的输入,由模型输出相关性结果,该模型使用大量标注数据进行训练。
但是,现有技术的方法存在准确率不高或者效率较低的问题,无法满足舆情分析的实际需要。
发明内容
本申请实施例提供一种舆情分析方法、装置、电子设备及可读存储介质,用于解决现有技术中相关性判断时准确率不高或效率较低的问题。
第一方面,本申请实施例提供一种舆情分析方法,包括:
接收来自终端设备的舆情分析请求,所述舆情分析请求包括用户设置的分析关键词。
根据所述分析关键词与目标文档集合中各文档的相关性结果,得到与所述分析关键词相关的至少一个文档,所述相关性结果由相关性预测模型使用相关性特征预测得到,所述相关性特征基于所述分析关键词与每个文档预先得到。
对所述至少一个文档进行舆情分析,得到针对所述分析关键词的舆情分析结果。
向所述终端设备发送所述针对所述分析关键词的舆情分析结果。
第二方面,本申请实施例提供一种舆情分析装置,包括:
接收模块,用于接收来自终端设备的舆情分析请求,所述舆情分析请求包括用户设置的分析关键词。
处理模块,用于根据所述分析关键词与目标文档集合中各文档的相关性结果,得到与所述分析关键词相关的至少一个文档,所述相关性结果由相关性预测模型使用相关性特征预测得到,所述相关性特征基于所述分析关键词与每个文档预先得到;以及,对所述至少一个文档进行舆情分析,得到针对所述分析关键词的舆情分析结果。
发送模块,用于向所述终端设备发送所述针对所述分析关键词的舆情分析结果。
第三方面,本申请实施例提供一种电子设备,包括:
至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述第一方面所述的方法。
第四方面,本申请实施例提供一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行上述第一方面所述的方法。
上述申请中的一个实施例具有如下优点或有益效果:
本实施例中,服务器接收到终端设备发送的分析关键词之后,由相关性预测模型使用相关性特征预测得到分析关键词和文档的相关性,并利用与分析关键词相关的文档进行舆情分析,进而得到舆情分析结果。由于相关性预测模型使用相关性特征进行预测,而相关性特征是基于分析关键词与每个文档预先得到的,因此,一方面,相关性特征能够从多种维度表征分析关键词与文档的关系,因此相关性预测模型基于该特征得到的相关性结果能够更加准确地表示分析关键词与文档的相关性,因此,能够保证预测的相关性的准确性。另一方面,相关性预测模型利用相关性特征进行预测,即相关性特征作为相关性预测模型的输入,因此,相关性预测模型仅需要对相关性特征进行处理,而无需进行语义相关的处理,因此,相关性预测模型的计算复杂度低,仅需要较少的计算即可预测到相关性结果,因此处理效率得到极大提升。因此,本实施例在保证所预测的相关性结果的准确性的基础上,还能够极大提升处理效率,从而满足舆情分析的实际需要。
上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1为本申请实施例提供的舆情分析方法的一种示例性的系统架构图;
图2为本申请实施例提供的舆情分析方法的流程示意图;
图3为本申请实施例提供的舆情分析方法的一界面示例图;
图4为本申请实施例提供的舆情分析方法的又一界面示例图;
图5为使用各维度的信息组合得到相关性特征的一种示例图;
图6为使用各维度的信息组合得到相关性特征的另一种示例图;
图7为服务器进行特征提取以及由相关性预测模型预测出相关性结果的流程示例图;
图8为利用自动机器学习技术训练相关性预测模型的示例图;
图9为本申请实施例提供的舆情分析装置的模块结构图;
图10是根据本申请实施例的物品识别的方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
现有技术中,可以使用字符串匹配方式或基于语义的匹配方式计算分析关键词与文档的相关性。
字符串匹配方式例如可以为以下任意一种:
1、根据分析关键词在文档中出现的次数计算相关性。
例如,分析关键词在文档中出现的次数达到某一阈值,则可以得出该阈值对应的一个相关性得分。
2、使用TF-IDF计算分析关键词与文档相关性得分。
TF-IDF是一种统计方法,用于评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要程度随着它在文件中出现的次数成正比增加,同时会随着它在文件集或语料库中出现的频率成反比下降。使用TF-IDF方法计算分析关键词与文档相关性得分时,TF表示分析关键词在文档中出现的频率,IDF为分析关键词普遍重要性的度量,分析关键词的IDF可以由总文件数除以包含该分析关键词的文件的数目,再见得到的商取以10为底的对数得到。在得到TF和IDF后,计算TF和IDF的乘积,该乘积可以用来衡量分析关键词与文档的相关性得分。
基于语义的匹配方式例如可以为以下任意一种:
1、基于LDA计算相关性。
LDA是一种基于概率模型的主题模型算法,可以用于识别文档集或语料库中潜在主题信息。因此,使用LDA可以计算文档的主题分布,进而,计算该主题分布生成分析关键词的概率。概率越大,表明文档与分析关键词的相关性越大。
2、利用深度学习模型计算相关性。
利用深度学习模型计算相关性时,将分析关键词和文档作为模型的输入,由深度学习模型基于二者的语义输出相关性得分。由于需要进行语义分析,因此,该深度学习模型预先需要使用大量的标注数据进行训练。
上述方法中,字符串匹配方式仅考虑了分析关键词在文档中出现的次数这一因素,然而实际中影响相关性的因素可能包括多种,例如分析关键词在文档中出现的位置,分析关键词在文档标题中出现与分析关键词在文档正文的某个列表中出现,实际所代表的相关性截然不同。因此,使用字符串匹配方式存在准确率低的问题。基于语义的匹配方式,需要基于文档和分析关键词的语义进行匹配,而获得文档和分析关键词的语义的计算过程复杂,耗时较长,对于大规模的舆情系统来说,每天需要进行相关性匹配的文档的数量巨大,因此,如果使用基于语义的匹配方式,则存在处理效率低的问题。因此,现有的方法存在准确率不高或者效率较低的问题,无法满足舆情分析的实际需要。
考虑到现有技术中计算相关性时准确率不高或效率不高而无法满足舆情分析实际需要的问题,本申请实施例使用相关性预测模型基于预先收集到的各维度的相关性特征预测分析关键词与文档的相关性,既能保证所预测的相关性的准确性,同时还能够极大提升处理效率。
图1为本申请实施例提供的舆情分析方法的一种示例性的系统架构图,如图1所示,该方法涉及终端设备和服务器。终端设备和服务器之间预先建立网络连接。服务器预先训练得到相关性预测模型并予以保存,并且,服务器实时利用爬虫从互联网采集大量的文档,服务器可以保存这些文档或者记录这些文档的地址,从而形成文档库。其中,如果文档库中记录的为地址,可以在需要使用文档时从该地址获取文档的内容。用户在终端设备的界面上输入分析关键词,终端设备将分析关键词发送给服务器。服务器接收到分析关键词之后,利用本申请实施例的方法,得到分析关键词与文档库中各文档的相关性,再基于与分析关键词相关性高的文档进行舆情分析,并将舆情分析结果发送给终端设备。用户可以在终端设备上查看舆情分析结果。
上述图1中的终端设备可以为台式终端或移动终端,台式终端可以为电脑等,移动终端可以为手机、平板电脑、笔记本电脑等。服务器可以是独立的服务器或者多个服务器组成的服务器集群等。
图2为本申请实施例提供的舆情分析方法的流程示意图,该方法的执行主体为上述的服务器,如图2所示,该方法包括:
S201、接收来自终端设备的舆情分析请求,该舆情分析请求包括用户设置的分析关键词。
用户可以在终端设备的界面上输入分析关键词,该分析关键词可以是用户关注的主题和/对象,例如用户所在企业的名称、某些人物的姓名、某些地域的事物等。示例性的,用户输入“企业A”这一分析关键词,表示用户希望查看网络中关于“企业A”的舆情。
可选的,本申请实施例中,上述分析关键词可以包括一组,也可以包括多组,每组分析关键词中可以包括一个分析关键词,也可以包括多个分析关键词。当分析关键词包括多组时,服务器可以分别针对各组分析关键词进行舆情分析,并将各组分析关键词的舆情分析结果同时反馈给终端设备,即,各组分析关键词之间为“或”的关系。在一组分析关键词中,如果分析关键词的个数为一个,则针对该一个关键词进行舆情分析,如果分析关键词的个数为多个,则以该多个关键词的结合进行舆情分析。示例性的,某一组分析关键词包括“企业A”和“手机”这两个分析关键词,表示用户希望查看网络中关于企业A的手机的舆情。
通过支持多组分析关键词,使得用户可以更加灵活地对关键词进行配置。
值得说明的是,本步骤与下述的步骤S202-S204可以不连续执行。用户可以每次在终端设备上输入分析关键词,从而触发终端设备向服务器发送舆情分析请求,服务器接收到请求后,执行下述步骤S202-S204。或者,用户也可以在终端设备上一次输入分析关键词,触发终端设备向服务器发送舆情分析请求,服务器接收到舆情分析请求后,可以按照预设的周期,多次执行下述步骤S202-S204。示例性的,服务器可以在每天的特定时间执行步骤S202-S204。
S202、根据上述分析关键词与目标文档集合中各文档的相关性结果,得到与上述分析关键词相关的至少一个文档。该相关性结果由相关性预测模型使用相关性特征预测得到,该相关性特征基于上述分析关键词与每个文档预先得到。
上述目标文档集合可以是根据爬虫从互联网所采集的文档生成的集合,爬虫可以实时从互联网采集文档,服务器可以根据用户的指示或者默认从爬虫采集的大量文档中选择文档以生成目标文档集合。示例性的,服务器默认选择发表日期在当前日期之前一周内的文档,将这些文档加入目标文档集合中,相应的,基于该目标文档集合所得到的舆情分析结果,表示的是一周内的舆情。
服务器在获知分析关键词和目标文档集合的基础上,可以利用相关性预测模型预测分析关键词与目标文档集合中每个文档的相关性结果。具体的,相关性预测模型使用相关性特征预测得到相关性结果,该相关性特征基于分析关键词和各文档得到。其中,该相关性特征表征了分析关键词与文档在多个维度的关系,服务器首先得到该相关性特征后,可以将其作为相关性预测模型的输入。该相关性特征可以是特征向量的形式,因此,相关性预测模型仅需要基于该特征进行处理,而无需进行复杂的基于语义的处理。
针对目标文档集合中的每个文档,均可以基于相关性预测模型预测出该文档与分析关键词的相关性结果,该相关性结果例如可以为一个概率,概率越大,表明文档与分析关键词的相关性越大。服务器可以将概率值大于某个预设阈值的文档,作为与分析关键词相关的文档。
S203、对上述至少一个文档进行舆情分析,得到针对上述分析关键词的舆情分析结果。
可选的,上述至少一个文档是与分析关键词相关的文档,基于这些文档,服务器可以进行舆情分析,舆情分析例如可以包括声量分析、度量分析等。声量分析例如可以包括信息的转发量、浏览量、回复量、评论量的分析。度量分析例如可以是关注度分析、影响量分析、正面评价度分析、推荐率分析等。
值得说明的是,如果用户输入的是多组分析关键词,则服务器可以分别利用相关性预测模型得到与每组分析关键词相关的至少一个文档,并得到针对每组分析关键词的舆情分析结果。
S204、向终端设备发送上述针对上述分析关键词的舆情分析结果。
可选的,服务器将舆情分析结果发送给终端设备后,终端设备科可以以图表和/或文字的方式展示舆情分析结果。
另外,服务器还可以从上述至少一个文档中选择部分文档发送给终端设备进行展示。
图3为本申请实施例提供的舆情分析方法的一界面示例图,如图3所示,终端设备的界面中显示输入框,用户在输入框中输入分析关键词。其中,多组分析关键词之间通过逗号隔开,各组分析关键词中的各分析关键词使用加号连接。如图3所示例的,用户在输入框中输入“企业A+手机,企业B+手机”,表示用户希望查看网络中关于企业A的手机的舆情以及关于企业B的手机的舆情。
图4为本申请实施例提供的舆情分析方法的又一界面示例图,如图4所示,用户输入“企业A”这一分析关键词之后,服务器将近一天的舆情分析结果发送给终端设备,终端设备以图表形式显示与“企业A”关联的文档的浏览量、转发量、回复量、评论量,以及互联网中用户对于“企业A”这一信息的关注度、正面评价度以及推荐率等。
本实施例中,服务器接收到终端设备发送的分析关键词之后,由相关性预测模型使用相关性特征预测得到分析关键词和文档的相关性,并利用与分析关键词相关的文档进行舆情分析,进而得到舆情分析结果。由于相关性预测模型使用相关性特征进行预测,而相关性特征是基于分析关键词与每个文档预先得到的,因此,一方面,相关性特征能够从多种维度表征分析关键词与文档的关系,因此相关性预测模型基于该特征得到的相关性结果能够更加准确地表示分析关键词与文档的相关性,因此,能够保证预测的相关性的准确性。另一方面,相关性预测模型利用相关性特征进行预测,即相关性特征作为相关性预测模型的输入,因此,相关性预测模型仅需要对相关性特征进行处理,而无需进行语义相关的处理,因此,相关性预测模型的计算复杂度低,仅需要较少的计算即可预测到相关性结果,因此处理效率得到极大提升。因此,本实施例在保证所预测的相关性结果的准确性的基础上,还能够极大提升处理效率,从而满足舆情分析的实际需要。
如前文所述,针对目标文档集合中的每个文档,均可以基于相关性预测模型预测出该文档与分析关键词的相关性结果。可选的,假设第一文档为目标文档集合中的任一文档,则服务器基于相关性预测模型预测第一文档与分析关键词的相关性结果的一种可选方式包括:首先,提取分析关键词与第一文档的相关性特征,进而,将该相关性特征输入相关性预测模型中,得到由相关性预测模型预测的分析关键词与第一文档的相关性结果。
由于在相关性预测模型之外首先提取到相关性特征,再将相关性特征输入至相关性预测模型中,因此,相关性预测模型可以直接对相关性特征进行处理,无需进行复杂的语义处理。在具体实施时,相关性特征可以为多个数值组成的特征向量,因此,相关性预测模型需要进行的计算量小,模型复杂度低。因此,对于目标文档库中的任意一个文档,可以快速利用相关性预测模型计算得到该文档与分析关键词的相关性结果。
相关性特征能够表征分析关键词与第一文档在多个维度上的关系。在一种可选的实施方式中,相关性特征能够表征如下至少一项信息,每项信息代表一个相关性的维度:
分析关键词在第一文档中出现的位置、分析关键词在第一文档中的位置是否为列表、分析关键词在第一文档中出现的次数、分析关键词在第一文档中首次出现的位置、分析关键词与所述第一文档的字符串匹配得分。
分析关键词出现在第一文档的标题与出现在第一文档的内容中,所代表的关系并不相同。出现在标题中所代表的相关性大于出现在内容中所代表的相关性。因此,针对这一信息,服务器可以确定一个特征值。示例性的,分析关键词出现在标题中时特征值为1,出现在内容中时特征值为0。
分析关键词在第一文档中的位置是否为列表是指分析关键词是否出现在第一文档内的某个列表中。分析关键词出现第一文档的列表中所代表的相关性小于不出现在列表中所代表的相关性。
分析关键词在第一文档中出现的次数越多,表示分析关键词与第一文档的相关性越大。
分析关键词在第一文档中首次出现的位置越靠前,表示分析关键词与第一文档的相关性越大。
分析关键词与第一文档的字符串匹配得分,可以是指对关键词与第一文档进行TF-IDF计算所得到的得分。
服务器针对上述每个维度,可以确定出一个特征值,该特征值例如可以为一个数值。这些特征值组合起来可以作为上述相关性特征。
这些特征值能够表征分析关键词与第一文档在多种维度上的关系,因此,由此得到的相关性结果能够与实际的相关性更加一致,即准确性更高。
图5为使用各维度的信息组合得到相关性特征的一种示例图。
上述各维度的信息均用于表征一个关键词与第一文档的关系。如前文所述,分析关键词可以包括多个,例如前文所述的“企业A+手机”,此时,“企业A”和“手机”均为分析关键词,当分析关键词包括多个时,还可以增加表征如下至少一项信息的特征:
多个分析关键词中各分析关键词在第一文档中出现的最小间隔字数、多个分析关键词中各分析关键词在第一文档中出现次数的比值。
上述两种信息表示了同一组中各分析关键词之间的关系,利用这种关系,能够避免目标文档集合中的文档仅与一组中的某个分析关键词相关。示例性的,一组分析关键词为“企业A+手机”,如果“企业A”和“手机”这两个关键词在第一文档中出现的最小间隔字数较多,则可以说明第一文档与“企业A+手机”这一组分析关键词的相关性并不高。
图6为使用各维度的信息组合得到相关性特征的另一种示例图,如图6所示,在图5的基础上,还可以将每组中多个分析关键词之间的关系作为特征,以避免标文档集合中的文档仅与一组中的某个分析关键词相关。
以上实施例说明了相关性预测模型使用相关性特征预测得到相关性结果,作为一种可选的实施方式,相关性预测模块还可以同时使用相关性特征以及文档内容特征预测得到相关性结果。其中,该文档内容特征基于每个文档得到,即该文档内容特征是针对每个文档的特征。
具体的,服务器在提取分析关键词与第一文档的同时,还可以提取第一文档的文档内容特征,进而,将相关性特征和和第一文档的文档内容特征均输入相关性预测模型中,得到由相关性预测模型预测的分析关键词与第一文档的相关性结果。
可选的,上述第一文档的文档内容特征用于表征如下至少一项信息:第一文档中包含的联系方式的数量、第一文档的平均语句长度、第一文档的标题与内容的相似度、第一文档中的统一资源定位符(Uniform Resource Location,简称URL)数量。
上述各项信息表示了第一文档的内容在不同维度上的特点,可以用于衡量第一文档的内容是否属于低质内容,相关性预测模型利用表征这些信息的特征,可以剔除掉一些低质内容的文档,以避免这些低质内容对于后续的舆情分析带来噪声,避免影响用户体验。
可选的,第一文档中包含的联系方式例如可以是电话号码、社交账号的号码等,对于一些低质内容,普遍包含较多联系方式。另外,低质内容的平均语句长度通常较长。另外,低质内容的标题往往与实际内容不符。另外,低质内容中通常包括较多的URL信息。
图7为服务器进行特征提取以及由相关性预测模型预测出相关性结果的流程示例图,如图7所示,服务器使用爬虫从互联网采集的文档形成目标文档集合,再利用分析关键词和文档集中各文档提取相关性特征和文档内容特征,并将这两种特征输入相关性预测模型中,由模型输出相关性结果,服务器再根据相关性结果选择至少一个文档进行舆情分析,并得到舆情分析结果。
服务器可以依据上述每一项信息生成一个特征值,这些特征值和前述的相关性特征的各特征值组合为一个特征向量,作为相关性预测模型的输入。
由于相关性预测模型的输入为上述的相关性特征以及文档内容特征,这些特征中的每项特征可以通过一个数值表示,因此可以组合为一个特征向量输入相关性预测模型中,即相关性模型仅需要对该一个特征向量进行处理,因此,显然,相比于基于语义的深度学习模型,相关性预测模型的复杂度和计算量可以得到极大提升。由于相关性预测模型的复杂度低、计算量少,因此,相关性预测模型在训练时,所需要的训练数据相比于基于语义的深度学习模型可以显著减少,可以仅需要几千条训练数据即可训练出相关性预测模型。以下对相关性预测模型的训练过程进行说明。
可选的,使用相关性预测模型预测相关性结果之前,可以使用预先标注的训练数据,训练该相关性预测模型。
首先构建一初始预测模型,将预先标注的训练数据输入该初始预测模型中,得到由初始预测模型输出的相关性结果,根据该初始预测模型输出的相关性结果,调整初始预测模型的模型参数。再根据调整模型参数后的初始预测模型,得到相关性预测模型。
在根据调整模型参数后的初始预测模型,得到相关性预测模型时,具体的,如果调整模型参数后的初始预测模型对训练数据的处理结果与标注的预期结果一致,则可以认为调整参数后的初始预测模型可用,将其作为相关性预测模型,否则,继续对初始预测模型调整模型参数,并基于调整参数后的模型继续使用训练数据进行验证,直至某次验证时模型的输出结果与预期结果一致,将此时的模型作为相关性预测模型。
在上述过程中,调整模型参数由服务器自动执行,而无需像现有的大多模型一样需要人工调整模型参数,因此本申请实施例中模型训练的效率可以得到极大提升,还能够极大节省人力成本。本申请之所以能够自动调整模型参数,是由于模型的复杂度低,因此自动调整参数时无需耗费较长时间,而对于现有的大多模型,由于复杂度高,如果自动调整参数,会耗费大量的时间,因此只能选用人工参数的方式,导致人力成本高。
应理解,上述的模型参数可以包括模型所使用的算法、算法的超参数等。
作为一种可选的实施方式,本申请实施例的相关性预测模型可以是机器学习模型,具体可以是利用自动机器学习AutoML技术,执行网格搜索算法进行模型参数调整以及机器学习模型选择。
图8为利用自动机器学习技术训练相关性预测模型的示例图,如图8所示,服务器中可以包括机器学习模块和自动调参模块,在机器学习模块中,将训练数据输入初始预测模型中,由初始预测模型输出结果,再进行评价指标计算,该评价指标用于评价当前模型,将评价指标发送给自动调参模块,自动调参模块基于评价指标计算下一组模型参数,并将模型参数输入初始预测模型中替换原有的参数,并执行下一轮的训练,直至评价指标符合预期之后不再自动调参。
图9为本申请实施例提供的舆情分析装置的模块结构图,如图9所示,该装置包括:
接收模块901,用于接收来自终端设备的舆情分析请求,所述舆情分析请求包括用户设置的分析关键词。
处理模块902,用于根据所述分析关键词与目标文档集合中各文档的相关性结果,得到与所述分析关键词相关的至少一个文档,所述相关性结果由相关性预测模型使用相关性特征预测得到,所述相关性特征基于所述分析关键词与每个文档预先得到;以及,对所述至少一个文档进行舆情分析,得到针对所述分析关键词的舆情分析结果。
发送模块903,用于向所述终端设备发送所述针对所述分析关键词的舆情分析结果。
作为一种可选的实施方式,处理模块902具体用于:
提取所述分析关键词与第一文档的相关性特征,所述第一文档为所述目标文档集合中的任一文档;以及,将所述相关性特征输入所述相关性预测模型中,得到由所述相关性预测模型预测的所述分析关键词与所述第一文档的相关性结果。
作为一种可选的实施方式,所述分析关键词与第一文档的相关性特征用于表征如下至少一项信息:
所述分析关键词在所述第一文档中出现的位置、所述分析关键词在所述第一文档中的位置是否为列表、所述分析关键词在所述第一文档中出现的次数、所述分析关键词在所述第一文档中首次出现的位置、所述分析关键词与所述第一文档的字符串匹配得分。
作为一种可选的实施方式,若所述分析关键词的数量为多个,则所述相关性特征还用于表征如下至少一项信息:
多个分析关键词中各分析关键词在所述第一文档中出现的最小间隔字数、多个分析关键词中各分析关键词在所述第一文档中出现次数的比值。
作为一种可选的实施方式,所述相关性结果由相关性预测模型使用相关性特征预测得到,包括:
所述相关性结果由相关性预测模型使用相关性特征以及文档内容特征预测得到,所述文档内容特征基于每个文档得到。
作为一种可选的实施方式,处理模块902具体用于:
将所述相关性特征以及所述第一文档的文档内容特征输入所述相关性预测模型中,得到由所述相关性预测模型预测的所述分析关键词与所述第一文档的相关性结果。
作为一种可选的实施方式,所述第一文档的文档内容特征用于表征如下至少一项信息:
所述第一文档中包含的联系方式的数量、所述第一文档的平均语句长度、所述第一文档的标题与内容的相似度、所述第一文档中的统一资源定位符URL数量。
作为一种可选的实施方式,所述分析关键词包括多组。
处理模块902具体用于:
根据每组所述分析关键词与目标文档集合中各文档的相关性结果,分别得到与每组所述分析关键词相关的至少一个文档。
作为一种可选的实施方式,处理模块902还用于:
使用预先标注的训练数据,训练所述相关性预测模型。
作为一种可选的实施方式,处理模块902具体用于:
将预先标注的训练数据输入初始预测模型中,得到由所述初始预测模型输出的相关性结果;以及,根据所述初始预测模型输出的相关性结果,调整所述初始预测模型的模型参数;以及,根据调整模型参数后的所述初始预测模型,得到所述相关性预测模型。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图10所示,是根据本申请实施例的物品识别的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图10所示,该电子设备包括:一个或多个处理器1001、存储器1002,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图10中以一个处理器1001为例。
存储器1002即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的物品识别的方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的物品识别的方法。
存储器1002作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的物品识别的方法对应的程序指令/模块(例如,附图9所示的接收模块901、处理模块902和发送模块903)。处理器1001通过运行存储在存储器1002中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的物品识别的方法。
存储器1002可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据物品识别的电子设备的使用所创建的数据等。此外,存储器1002可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器1002可选包括相对于处理器1001远程设置的存储器,这些远程存储器可以通过网络连接至物品识别的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
物品识别的方法的电子设备还可以包括:输入装置1003和输出装置1004。处理器1001、存储器1002、输入装置1003和输出装置1004可以通过总线或者其他方式连接,图10中以通过总线连接为例。
输入装置1003可接收输入的数字或字符信息,以及产生与物品识别的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1004可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (8)

1.一种舆情分析方法,其特征在于,包括:
接收来自终端设备的舆情分析请求,所述舆情分析请求包括用户设置的分析关键词;
提取所述分析关键词与第一文档的相关性特征和所述第一文档的文档内容特征,所述第一文档为目标文档集合中的任一文档;所述相关性特征用于表征如下至少一项信息:所述分析关键词在第一文档中出现的位置、所述分析关键词在所述第一文档中的位置是否为列表、所述分析关键词在所述第一文档中首次出现的位置;所述第一文档的文档内容特征用于表征如下至少一项信息:所述第一文档中包含的联系方式的数量、所述第一文档的平均语句长度、所述第一文档的标题与内容的相似度、所述第一文档中的统一资源定位符URL数量;
将所述相关性特征和所述文档内容特征输入相关性预测模型中,得到由所述相关性预测模型预测的所述分析关键词与所述第一文档的相关性结果;
根据所述相关性结果,得到与所述分析关键词相关的至少一个文档;
对所述至少一个文档进行舆情分析,得到针对所述分析关键词的舆情分析结果;
向所述终端设备发送所述针对所述分析关键词的舆情分析结果。
2.根据权利要求1所述的方法,其特征在于,若所述分析关键词的数量为多个,则所述相关性特征还用于表征如下至少一项信息:
多个分析关键词中各分析关键词在所述第一文档中出现的最小间隔字数、多个分析关键词中各分析关键词在所述第一文档中出现次数的比值。
3.根据权利要求1或2所述的方法,其特征在于,所述分析关键词包括多组;
所述根据所述分析关键词与目标文档集合中各文档的相关性结果,得到与所述分析关键词相关的至少一个文档,包括:
根据每组所述分析关键词与目标文档集合中各文档的相关性结果,分别得到与每组所述分析关键词相关的至少一个文档。
4.根据权利要求1或2所述的方法,其特征在于,所述根据所述分析关键词与目标文档集合中各文档的相关性结果,得到与所述分析关键词相关的至少一个文档之前,还包括:
使用预先标注的训练数据,训练所述相关性预测模型。
5.根据权利要求4所述的方法,其特征在于,所述使用预先标注的训练数据,训练所述相关性预测模型,包括:
将预先标注的训练数据输入初始预测模型中,得到由所述初始预测模型输出的相关性结果;
根据所述初始预测模型输出的相关性结果,调整所述初始预测模型的模型参数;
根据调整模型参数后的所述初始预测模型,得到所述相关性预测模型。
6.一种舆情分析装置,其特征在于,包括:
接收模块,用于接收来自终端设备的舆情分析请求,所述舆情分析请求包括用户设置的分析关键词;
处理模块,用于提取所述分析关键词与第一文档的相关性特征和所述第一文档的文档内容特征,所述第一文档为目标文档集合中的任一文档;所述相关性特征用于表征如下至少一项信息:所述分析关键词在第一文档中出现的位置、所述分析关键词在所述第一文档中的位置是否为列表、所述分析关键词在所述第一文档中首次出现的位置;所述第一文档的文档内容特征用于表征如下至少一项信息:所述第一文档中包含的联系方式的数量、所述第一文档的平均语句长度、所述第一文档的标题与内容的相似度、所述第一文档中的统一资源定位符URL数量;
将所述相关性特征和所述文档内容特征输入相关性预测模型中,得到由所述相关性预测模型预测的所述分析关键词与所述第一文档的相关性结果;
根据所述相关性结果,得到与所述分析关键词相关的至少一个文档;以及,
对所述至少一个文档进行舆情分析,得到针对所述分析关键词的舆情分析结果;
发送模块,用于向所述终端设备发送所述针对所述分析关键词的舆情分析结果。
7.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。
8.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法。
CN202010199786.XA 2020-03-20 2020-03-20 舆情分析方法、装置、电子设备及可读存储介质 Active CN111414455B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010199786.XA CN111414455B (zh) 2020-03-20 2020-03-20 舆情分析方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010199786.XA CN111414455B (zh) 2020-03-20 2020-03-20 舆情分析方法、装置、电子设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN111414455A CN111414455A (zh) 2020-07-14
CN111414455B true CN111414455B (zh) 2024-03-01

Family

ID=71491337

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010199786.XA Active CN111414455B (zh) 2020-03-20 2020-03-20 舆情分析方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN111414455B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113157871B (zh) * 2021-05-27 2021-12-21 宿迁硅基智能科技有限公司 应用人工智能的新闻舆情文本处理方法、服务器及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107315778A (zh) * 2017-05-31 2017-11-03 温州市鹿城区中津先进科技研究院 一种基于大数据情感分析的自然语言舆情分析方法
CN108959383A (zh) * 2018-05-31 2018-12-07 平安科技(深圳)有限公司 网络舆情的分析方法、装置及计算机可读存储介质
CN109190105A (zh) * 2018-06-28 2019-01-11 中译语通科技股份有限公司 一种企业舆情宏观情感分析方法
CN109684481A (zh) * 2019-01-04 2019-04-26 深圳壹账通智能科技有限公司 舆情分析方法、装置、计算机设备和存储介质
CN109871434A (zh) * 2019-02-25 2019-06-11 内蒙古工业大学 一种基于动态增量式的概率图模型的舆情演化跟踪方法
CN110232109A (zh) * 2019-05-17 2019-09-13 深圳市兴海物联科技有限公司 一种网络舆情分析方法以及系统
CN110717332A (zh) * 2019-07-26 2020-01-21 昆明理工大学 基于非对称孪生网络的新闻与案件相似度计算方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4870448B2 (ja) * 2006-02-23 2012-02-08 株式会社日立製作所 情報処理装置、顧客ニーズ分析方法、およびプログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107315778A (zh) * 2017-05-31 2017-11-03 温州市鹿城区中津先进科技研究院 一种基于大数据情感分析的自然语言舆情分析方法
CN108959383A (zh) * 2018-05-31 2018-12-07 平安科技(深圳)有限公司 网络舆情的分析方法、装置及计算机可读存储介质
CN109190105A (zh) * 2018-06-28 2019-01-11 中译语通科技股份有限公司 一种企业舆情宏观情感分析方法
CN109684481A (zh) * 2019-01-04 2019-04-26 深圳壹账通智能科技有限公司 舆情分析方法、装置、计算机设备和存储介质
CN109871434A (zh) * 2019-02-25 2019-06-11 内蒙古工业大学 一种基于动态增量式的概率图模型的舆情演化跟踪方法
CN110232109A (zh) * 2019-05-17 2019-09-13 深圳市兴海物联科技有限公司 一种网络舆情分析方法以及系统
CN110717332A (zh) * 2019-07-26 2020-01-21 昆明理工大学 基于非对称孪生网络的新闻与案件相似度计算方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于主题模型的网络舆情监控系统设计;钟荣飞;;电脑知识与技术;20150305(第07期);全文 *

Also Published As

Publication number Publication date
CN111414455A (zh) 2020-07-14

Similar Documents

Publication Publication Date Title
CN111984689B (zh) 信息检索的方法、装置、设备以及存储介质
JP6967612B2 (ja) 情報検索方法、装置及びシステム
US20210365515A1 (en) Method for Recommending a Search Term, Method for Training a Target Model and Electronic Device
CN107229645B (zh) 信息处理方法、服务平台及客户端
JP2021166109A (ja) 融合順序付けモデルの訓練方法と装置、検索の順序付け方法と装置、電子デバイス、記憶媒体、及びプログラム
US9465881B2 (en) User displays using N-way paginated merge of information from diverse sources
CN111460384B (zh) 策略的评估方法、装置和设备
CN111506803B (zh) 内容推荐方法、装置、电子设备及存储介质
CN111563198B (zh) 一种物料召回方法、装置、设备及存储介质
CN111310058B (zh) 资讯主题的推荐方法、装置、终端及存储介质
CN112084150A (zh) 模型训练、数据检索方法,装置,设备以及存储介质
US10229212B2 (en) Identifying Abandonment Using Gesture Movement
CN111291184A (zh) 表情的推荐方法、装置、设备及存储介质
CN111414455B (zh) 舆情分析方法、装置、电子设备及可读存储介质
CN112699314A (zh) 热点事件确定方法、装置、电子设备及存储介质
CN112650919A (zh) 实体资讯分析方法、装置、设备及存储介质
US10534780B2 (en) Single unified ranker
KR20210043281A (ko) 소셜미디어 빅데이터 분석을 통한 커스텀 위젯의 시각적 제공 방법 및 이를 수행하는 서버
CN113722593B (zh) 事件数据处理方法、装置、电子设备和介质
CN113590914B (zh) 信息处理方法、装置、电子设备和存储介质
CN112052402B (zh) 信息推荐方法、装置、电子设备及存储介质
CN111881255B (zh) 同义文本获取方法、装置、电子设备及存储介质
CN111222918B (zh) 关键词挖掘方法、装置、电子设备及存储介质
CN114036391A (zh) 数据推送方法、装置、电子设备和存储介质
CN112148988A (zh) 用于生成信息的方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant