CN112199588A

CN112199588A - 舆情文本筛选方法及装置

Info

Publication number: CN112199588A
Application number: CN202011066126.0A
Authority: CN
Inventors: 魏晓茹
Original assignee: OneConnect Financial Technology Co Ltd Shanghai
Current assignee: OneConnect Smart Technology Co Ltd; OneConnect Financial Technology Co Ltd Shanghai
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2021-01-08

Abstract

本申请实施例公开了一种舆情文本筛选方法及装置，其适用于风险管控和医疗领域中的远程管理。该方法包括：获取组成工商企业名称的多个分词，获取多个分词中每个分词在预设工商企业名称集合中的词频TF值和逆向文件频率IDF值，以及获取每个分词在工商企业名称中的相对位置值。根据各分词的相对位置值、TF值和IDF值确定各个分词的权重值，根据各个分词的权重值从多个分词中确定出至少两个关键词，并将至少两个关键词进行组合以得到工商企业名称对应的至少一个企业简称。将多个舆情文本中包括企业简称的舆情文本确定为与目标企业相关联的目标舆情文本。采用本申请实施例，可提高与企业相关的舆情文本的召回率以及召回准确率。

Description

舆情文本筛选方法及装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种舆情文本筛选方法及装置。

背景技术

企业或政府机构为实现风险识别、或舆情分析等，其通常需要从互联网上的海量文本中获取与自身(如企业名称、政府机关名称等)相关的新闻进行挖掘分析，以从中发现风险，从而实现企业风险识别、或舆情分析等。例如，在医疗场景下，通常需要获取与医院名称相关的新闻，以进行舆情监控。目前，常用的采集和识别手段是通过对文本进行分词，进而从文本中识别出企业名称，然后从文本中挖掘出对企业风险把控有用的相关信息，并将企业名称与相关信息关联起来，从而便于发现存在风险的企业。但是，采用常规的分词方法不能从文本中把企业名称准确地切分出来，导致计算机的对企业名称的识别结果经常出现错误。这是因为，在很多新闻报道中，基于言简意赅、文体简洁等多种因素，媒体往往会运用简称来描述企业，所谓简称就是从工商企业名称(即企业全称)中抽取具有代表性的词语组成的称谓。因此，使得从海量文本中识别出的目标舆情文本与企业客户的相关性不高，且召回率也不高。

发明内容

本申请实施例提供一种舆情文本筛选方法及装置，可提高与企业相关的舆情文本的召回率以及召回准确率。

第一方面，本申请实施例提供了一种舆情文本筛选方法，该方法包括：

获取工商企业名称，将上述工商企业名称进行分词处理以得到组成上述工商企业名称的多个分词，其中，上述工商企业名称为目标企业的企业全称；

获取上述多个分词中每个分词在预设工商企业名称集合中的词频TF值和逆向文件频率IDF值，以及获取每个分词在上述工商企业名称中的相对位置值，其中，任一分词的相对位置值等于上述任一分词的分词出现顺序与分词数量的比值；

根据各分词的相对位置值、TF值和IDF值确定各个分词的权重值，根据各个分词的权重值从上述多个分词中确定出至少两个关键词，并将上述至少两个关键词进行组合以得到上述工商企业名称对应的至少一个企业简称；

将多个舆情文本中包括上述企业简称的舆情文本确定为与上述目标企业相关联的目标舆情文本。

结合第一方面，在一种可能的实施方式中，上述根据各分词的相对位置值、TF值和IDF值确定各个分词的权重值，包括：

将由各分词的相对位置值组成的相对位置值序列、各分词的TF值组成的TF值序列，以及各分词的IDF值组成的IDF值序列输入分词权重计算模型，以得到上述分词权重计算模型输出的各分词对应的权重值，其中，上述分词权重计算模型H满足

其中，x为分词的相对位置值，k、n、p为上述分词权重计算模型的模型参数，上述分词权重计算模型根据上述预设工商企业名称集合中包括的各工商企业名称对应的相对位置值序列、TF值序列和IDF值序列，以及预设的权重值序列训练得到。

结合第一方面，在一种可能的实施方式中，上述根据各个分词的权重值从上述多个分词中确定出至少两个关键词，包括：

将上述各分词对应的权重值进行降序排列，获取降序排列后的前k个权重值对应的k个分词作为关键词，其中，k＝[max(w*50％,2)]，且k为整数，w为分词数量。

获取预设权重阈值，从各权重值对应的各分词中获取不小于上述预设权重阈值的分词作为关键词。

结合第一方面，在一种可能的实施方式中，上述将上述至少两个关键词进行组合以得到上述工商企业名称对应的至少一个企业简称，包括：

从上述至少两个关键词中随机确定出两个关键词；

将随机确定出的两个关键词中相对位置值较小的关键词确定为第一关键词，将随机确定出的两个关键词中相对位置值较大的关键词确定为第二关键词；

将上述第一关键词和上述第二关键词进行拼接以组成上述工商企业名称对应的企业简称。

结合第一方面，在一种可能的实施方式中，上述将多个舆情文本中包括上述企业简称的舆情文本确定为与上述目标企业相关联的目标舆情文本，包括：

获取多个舆情文本，基于隐马尔可夫模型从各舆情文本中提取出企业名称；

当从任一舆情文本中提取出的企业名称与上述企业简称匹配时，将上述任一舆情文本确定为与上述目标企业相关联的目标舆情文本。

结合第一方面，在一种可能的实施方式中，上述当从任一舆情文本中提取出的企业名称与上述企业简称匹配时，将上述任一舆情文本确定为与上述目标企业相关联的目标舆情文本，包括：

分别统计从各舆情文本中提取出的各企业名称的企业名称数量；

获取企业名称数量阈值，将任一舆情文本中企业名称数量大于上述企业名称数量阈值的企业名称确定为与上述任一舆情文本强关联的企业名称；

若与上述任一舆情文本强关联的企业名称与上述企业简称匹配，则将上述任一舆情文本确定为与上述目标企业相关联的目标舆情文本。

第二方面，本申请实施例提供了一种舆情文本筛选装置，该装置包括：

分词获取模块，用于获取工商企业名称，将上述工商企业名称进行分词处理以得到组成上述工商企业名称的多个分词，其中，上述工商企业名称为目标企业的企业全称；

分词处理模块，用于获取上述多个分词中每个分词在预设工商企业名称集合中的词频TF值和逆向文件频率IDF值，以及获取每个分词在上述工商企业名称中的相对位置值，其中，任一分词的相对位置值等于上述任一分词的分词出现顺序与分词数量的比值；

企业简称确定模块，用于根据各分词的相对位置值、TF值和IDF值确定各个分词的权重值，根据各个分词的权重值从上述多个分词中确定出至少两个关键词，并将上述至少两个关键词进行组合以得到上述工商企业名称对应的至少一个企业简称；

目标文本筛选模块，用于将多个舆情文本中包括上述企业简称的舆情文本确定为与上述目标企业相关联的目标舆情文本。

结合第二方面，在一种可能的实施方式中，上述企业简称确定模块包括权重值计算单元，其中，上述权重值计算单元具体用于：

结合第二方面，在一种可能的实施方式中，上述企业简称确定模块还包括第一关键词确定单元，其中，上述第一关键词确定单元具体用于：

结合第二方面，在一种可能的实施方式中，上述企业简称确定模块还包括第二关键词确定单元，其中，上述第二关键词确定单元具体用于：

结合第二方面，在一种可能的实施方式中，上述企业简称确定模块还包括关键词拼接单元，其中，上述关键词拼接单元具体用于：

从上述至少两个关键词中随机确定出两个关键词；

结合第二方面，在一种可能的实施方式中，上述目标文本筛选模块包括：

企业名称提取单元，用于获取多个舆情文本，基于隐马尔可夫模型从各舆情文本中提取出企业名称；

目标舆情文本确定单元，用于当从任一舆情文本中提取出的企业名称与上述企业简称匹配时，将上述任一舆情文本确定为与上述目标企业相关联的目标舆情文本。

结合第二方面，在一种可能的实施方式中，上述目标舆情文本确定单元具体用于：

第三方面，本申请实施例提供了一种终端设备，该终端设备包括处理器和存储器，该处理器和存储器相互连接。该存储器用于存储支持该终端设备执行上述第一方面和/或第一方面任一种可能的实现方式提供的方法的计算机程序，该计算机程序包括程序指令，该处理器被配置用于调用上述程序指令，执行上述第一方面和/或第一方面任一种可能的实施方式所提供的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令当被处理器执行时使该处理器执行上述第一方面和/或第一方面任一种可能的实施方式所提供的方法。

在本申请实施例中，通过获取工商企业名称，并将工商企业名称进行分词处理，可得到组成工商企业名称的多个分词，其中，工商企业名称为目标企业的企业全称。通过获取多个分词中每个分词在预设工商企业名称集合中的词频TF值和逆向文件频率IDF值，以及获取每个分词在工商企业名称中的相对位置值，可根据各分词的相对位置值、TF值和IDF值确定各个分词的权重值。其中，根据各个分词的权重值可从多个分词中确定出至少两个关键词，进而可将至少两个关键词进行组合以得到工商企业名称对应的至少一个企业简称，其中，上述任一分词的相对位置值等于任一分词的分词出现顺序与分词数量的比值。最后，可将多个舆情文本中包括企业简称的舆情文本确定为与目标企业相关联的目标舆情文本。采用本申请实施例，可提高与企业相关的舆情文本的召回率以及召回准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的舆情文本筛选方法的一流程示意图；

图2是本申请实施例提供的确定企业简称的场景示意图；

图3是本申请实施例提供的舆情文本筛选装置的一结构示意图；

图4是本申请实施例提供的舆情文本筛选装置的一结构示意图；

图5是本申请实施例提供的终端设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供的舆情文本筛选方法，可以适用于医疗领域中的远程管理或远程监控等场景。例如，对与医院相关的舆情文本进行筛选等。该方法可在各种终端设备中实现，其中，上述终端设备包括但不限于服务器、智能手机、平板电脑、笔记本电脑和台式计算机等，在此不做限制。为方便描述，下面将以终端设备为例进行说明。本申请实施例中的方法，通过获取工商企业名称，并将工商企业名称进行分词处理，可得到组成工商企业名称的多个分词，其中，工商企业名称为目标企业的企业全称。通过获取多个分词中每个分词在预设工商企业名称集合中的词频(term frequency，TF)值和逆向文件频率(inversedocument frequency，IDF)值，以及获取每个分词在工商企业名称中的相对位置值，可根据各分词的相对位置值、TF值和IDF值确定各个分词的权重值。其中，根据各个分词的权重值可从多个分词中确定出至少两个关键词，进而可将至少两个关键词进行组合以得到工商企业名称对应的至少一个企业简称，其中，上述任一分词的相对位置值等于任一分词的分词出现顺序与分词数量的比值。最后，可将多个舆情文本中包括企业简称的舆情文本确定为与目标企业相关联的目标舆情文本。采用本申请实施例，可提高与企业相关的舆情文本的召回率以及召回准确率。

下面将结合图1至图5分别对本申请实施例提供的方法及相关装置分别进行详细说明。

参见图1，图1为本申请实施例提供的舆情文本筛选方法的一流程示意图。本申请实施例提供的方法可以包括如下步骤S101至S104：

S101、获取工商企业名称，将工商企业名称进行分词处理以得到组成工商企业名称的多个分词。

在一些可行的实施方式中，终端用户可通过选项、语音或者下拉菜单等一种或者多种可选输入方式，在操作界面上显示的搜索框中输入需要查询的工商企业名称，并通过点击操作界面中“确认”按钮，触发终端设备生成与该工商企业名称对应的舆情文本获取请求。其中，终端设备可实时监控操作界面上的用户操作，基于操作界面上的用户操作获取终端用户输入的工商企业名称。其中，上述工商企业名称可携带在舆情文本获取请求中。可选的，终端用户还可以通过在搜索框中输入公司注册编号，使得终端设备可根据公司注册编号确定对应的工商企业名称，以根据工商企业名称生成对应的舆情文本获取请求。其中，一个公司注册编号可用于标记一个工商企业名称。其中，当终端设备获取到舆情文本获取请求后，通过解析该舆情文本获取请求，即可获取到舆情文本获取请求中携带的工商企业名称。进而，将工商企业名称进行分词处理，可以得到组成工商企业名称的多个分词。其中，本申请实施例中的工商企业名称为目标企业的企业全称。应当理解的是，对工商企业名称进行分词处理时可使用分词工具，其中，所用到的分词工具包括但不限于jieba分词、standardanalyzer分词等，在此不做限制。

例如，假设获取到的工商企业名称为“平安科技(深圳)有限公司”，则通过对该工商企业名称进行分词处理，可得到组成该工商企业名称的多个分词分别为“平安”、“科技”、“深圳”、“有限”、“公司”。

S102、获取多个分词中每个分词在预设工商企业名称集合中的词频TF值和逆向文件频率IDF值，以及获取每个分词在工商企业名称中的相对位置值。

在一些可行的实施方式中，当获取到组成工商企业名称的多个分词后，可进一步获取上述多个分词中每个分词在预设工商企业名称集合中的词频TF值和逆向文件频率IDF值，以及获取每个分词在工商企业名称中的相对位置值。

具体地，通过将分词后的工商企业名称输入训练好的TF-IDF模型，可得到TF-IDF模型输出的每个分词在预设工商企业名称集合中的TF值和IDF值。不难理解的是，上述TF-IDF模型可根据预设工商企业名称集合中包括的大量工商注册公司的工商企业名称训练得到。其中，任一分词的在工商企业名称中的相对位置值等于上述任一分词的分词出现顺序与分词数量的比值。也就是说，分词的相对位置值＝该分词出现顺序/分词数量。例如，假设输入的工商企业名称为“平安科技(深圳)有限公司”，其中，采用分词工具对该工商企业名称进行分词处理后，可得到“平安”、“科技”、“深圳”、“有限”、“公司”。其中，针对“平安”一词而言，其相对位置值为1/5，对于“科技”一词而言，其相对位置值为2/5，对于“深圳”一词而言，其相对位置值为3/5，对于“有限”一词而言，其相对位置值为4/5，对于“公司”一词而言，其相对位置值为5/5。

S103、根据各分词的相对位置值、TF值和IDF值确定各个分词的权重值，根据各个分词的权重值从多个分词中确定出至少两个关键词，并将至少两个关键词进行组合以得到工商企业名称对应的至少一个企业简称。

在一些可行的实施方式中，考虑到各专业媒体、各民间组织对于企业简称通常从企业名称的前几个词命名，故在抽取简称时，需要考虑词汇的位置对企业简称识别的影响。而词汇的位置对简称识别的影响随着出现位置呈现非线性递减关系，即前序词汇对于企业名称识别的影响均较大，末尾的词汇对企业简称识别的影响迅速减缩。因此，考虑到各分词的相对位置值对于各分词在工商企业名称中重要程度的影响，本申请实施例可根据每个分词对应的TF值、IDF值以及相对位置值确定出每个分词所在工商企业名称中的分词重要程度，即分词的权重值。

具体地，可将由各分词的相对位置值组成的相对位置值序列、各分词的TF值组成的TF值序列，以及各分词的IDF值组成的IDF值序列输入分词权重计算模型，以得到分词权重计算模型输出的各分词对应的权重值。其中，分词权重计算模型H满足

其中，x为分词的相对位置值，k、n、p为分词权重计算模型的模型参数。

应当理解的是，上述分词权重计算模型可根据预设工商企业名称集合中包括的各工商企业名称对应的相对位置值序列、TF值序列和IDF值序列，以及预设的权重值序列训练得到。也就是说，本申请实施例可通过大量训练样本(例如，5000-10000个样本)对模型

进行有监督训练，以得到收敛的分词权重计算模型。

其中，每个训练样本可由预设工商企业名称集合中包括的一个工商企业名称对应的各第一分词的相对位置值组成的相对位置值序列、各第一分词对应的TF值组成的词频值序列、各第一分词对应的IDF值组成的逆文件频率值序列、以及各第一分词对应的权重值组成的权重值序列组成。其中，各第一分词对应的权重值可通过人工预先标记好的。因此，通过将大量训练样本输入模型

可基于大量训练样本对该模型

的模型参数(即k，p，n)进行训练，直到训练得到的模型收敛时停止训练。

通常而言，模型参数k，p，n均为正数，且k>0，n>1，p>1。具体地，各模型参数的训练可遵循如下公式，即k，p，n的组合可满足：

其中，w为每个训练样本中包括的分词数量，y_i为各个分词的权重值组成的权重值序列，TF_i为各个分词的TF值组成的TF值序列，IDF_i为各分词的IDF值组成的IDF值序列。通过对上式求偏导，即令

即可得到k的值。同理，通过分别对p，n求偏导，即可得到模型参数p和n的值。

在一些可行的实施方式中，当确定出各分词对应权重值后，可进一步根据各个分词的权重值从多个分词中确定出至少两个关键词，并将至少两个关键词进行组合以得到工商企业名称对应的至少一个企业简称。

其中，可将各分词对应的权重值进行降序排列，以获取降序排列后的前k个权重值对应的k个分词作为关键词，其中，k＝[max(w*50％,2)]，且k为整数，w为分词数量。也就是说，关键词个数的确定方式可以为k＝[max(w*50％,2)]，即关键词个数为不大于max(w*50％,2)的最大整数。其中，w为对工商企业名称进行分词处理后得到的分词数量。例如，同样以“平安科技深圳有限公司”为例，其中w＝5，因此，上述关键词个数k为2。也就是说，可根据多个分词中每个分词对应的权重值以及确定出的关键词个数从工商企业名称中确定出权重值最大的k个分词作为关键词。可选的，还可以通过获取预设权重阈值，并从各权重值对应的各分词中获取不小于所述预设权重阈值的分词作为关键词。也就是说，可将大于或者等于上述预设权重阈值的多个分词作为工商企业名称对应的关键词。

进一步地，在一些可行的实施方式中，可将确定出的各关键词按照其在工商企业名称中的出现顺序进行组合，以作为工商企业名称对应的缩略词(即企业简称)。也就是说，在生成企业简称时，每次可从所述至少两个关键词中随机确定出两个关键词，然后将随机确定出的两个关键词中相对位置值较小的关键词确定为第一关键词，将随机确定出的两个关键词中相对位置值较大的关键词确定为第二关键词。通过将所述第一关键词和所述第二关键词进行拼接，可组成所述工商企业名称对应的企业简称。

举例来说，请参见图2，图2是本申请实施例提供的确定企业简称的场景示意图。如图2所示，假设组成某一工商企业名称的多个分词分别为“A1 A2 A3 A4 A5 A6”，其中，假设“A1”的权重值为0.8，“A2”的权重值为0.76，“A3”的权重值为0.75，“A4”的权重值为0.15，“A5”的权重值为0.15，“A6”的权重值为0.10。因此，根据分词数量w＝6，可得到关键词个数k＝3。也就是说，可将上述6个分词中的权重值最大的3个分词(即A1、A2和A3)确定为关键词。进一步地，根据各关键词在工商企业名称中的出现顺序(即相对位置值)，可得到3种组合方式的企业简称，分别为①A1,A2；②A2,A3；③A1,A3。

S104、将多个舆情文本中包括企业简称的舆情文本确定为与目标企业相关联的目标舆情文本。

在一些可行的实施方式中，可将多个舆情文本中包括上述企业简称的舆情文本确定为与目标企业相关联的目标舆情文本。也就是说，可将上述获取到的企业简称与舆情文本集合中包括的各舆情文本逐一进行匹配，当某个舆情文本中包括上述至少一个企业简称的任一个企业简称时，可将该舆情文本确定为与目标企业相关联的目标舆情文本。

其中，为加快舆情文本的筛选效率，针对舆情文本集合中包括的每个舆情文本，可首先基于隐马尔可夫模型从各舆情文本中提取出企业名称。然后，将从舆情文本中提取出的企业名称与上述确定出的各企业简称进行匹配，当从任一舆情文本中提取出的企业名称与企业简称匹配时，可将任一舆情文本确定为与目标企业相关联的目标舆情文本。其中，上述隐马尔可夫模型可根据大量舆情文本通过无监督的训练方式训练得到。

可选的，在一些可行的实施方式中，为进一步提高从海量舆情文本中识别出的目标舆情文本与企业客户的相关性，当从各舆情文本中提取出企业名称后，还可以分别统计从各舆情文本中提取出的各企业名称的企业名称数量。然后，获取企业名称数量阈值，将任一舆情文本中企业名称数量大于企业名称数量阈值的企业名称确定为与该舆情文本强关联的企业名称。进而，将与该舆情文本强关联的企业名称与上述确定出的企业简称进行匹配，当上述与舆情文本强关联的企业名称与企业简称匹配时，则将该舆情文本确定为与目标企业相关联的目标舆情文本。

参见图3，图3是本申请实施例提供的舆情文本筛选装置的结构示意图。本申请实施例提供的舆情文本筛选装置包括：

分词获取模块31，用于获取工商企业名称，将上述工商企业名称进行分词处理以得到组成上述工商企业名称的多个分词，其中，上述工商企业名称为目标企业的企业全称；

分词处理模块32，用于获取上述多个分词中每个分词在预设工商企业名称集合中的词频TF值和逆向文件频率IDF值，以及获取每个分词在上述工商企业名称中的相对位置值，其中，任一分词的相对位置值等于上述任一分词的分词出现顺序与分词数量的比值；

企业简称确定模块33，用于根据各分词的相对位置值、TF值和IDF值确定各个分词的权重值，根据各个分词的权重值从上述多个分词中确定出至少两个关键词，并将上述至少两个关键词进行组合以得到上述工商企业名称对应的至少一个企业简称；

目标文本筛选模块34，用于将多个舆情文本中包括上述企业简称的舆情文本确定为与上述目标企业相关联的目标舆情文本。

请一并参见图4，图4是本申请实施例提供的舆情文本筛选装置的一结构示意图。

在一些可行的实施方式中，上述企业简称确定模块33包括权重值计算单元331，其中，上述权重值计算单元331具体用于：

在一些可行的实施方式中，上述企业简称确定模块33还包括第一关键词确定单元332，其中，上述第一关键词确定单元332具体用于：

在一些可行的实施方式中，上述企业简称确定模块33还包括第二关键词确定单元333，其中，上述第二关键词确定单元333具体用于：

在一些可行的实施方式中，上述企业简称确定模块33还包括关键词拼接单元334，其中，上述关键词拼接单元334具体用于：

从上述至少两个关键词中随机确定出两个关键词；

在一些可行的实施方式中，上述目标文本筛选模块34包括：

企业名称提取单元341，用于获取多个舆情文本，基于隐马尔可夫模型从各舆情文本中提取出企业名称；

目标舆情文本确定单元342，用于当从任一舆情文本中提取出的企业名称与上述企业简称匹配时，将上述任一舆情文本确定为与上述目标企业相关联的目标舆情文本。

在一些可行的实施方式中，上述目标舆情文本确定单元342具体用于：

具体实现中，上述舆情文本筛选装置可通过其内置的各个功能模块执行如上述图1中各个步骤所提供的实现方式。例如，上述分词获取模块31可用于执行上述各个步骤中获取工商企业名称，以及对工商企业名称进行分词处理等实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。上述分词处理模块32可用于执行上述各个步骤中获取多个分词中每个分词在预设工商企业名称集合中的词频TF值和逆向文件频率IDF值，以及获取每个分词在工商企业名称中的相对位置值等相关步骤所描述的实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。上述企业简称确定模块33可用于执行上述各个步骤中根据各分词的相对位置值、TF值和IDF值确定各个分词的权重值、根据各个分词的权重值从多个分词中确定出至少两个关键词以及将关键词组合成企业简称等实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。上述目标文本筛选模块34可用于执行上述各个步骤中将多个舆情文本中包括企业简称的舆情文本确定为与目标企业相关联的目标舆情文本等实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。

在本申请实施例中，舆情文本筛选装置通过获取工商企业名称，并将工商企业名称进行分词处理，可得到组成工商企业名称的多个分词，其中，工商企业名称为目标企业的企业全称。通过获取多个分词中每个分词在预设工商企业名称集合中的词频TF值和逆向文件频率IDF值，以及获取每个分词在工商企业名称中的相对位置值，可根据各分词的相对位置值、TF值和IDF值确定各个分词的权重值。其中，根据各个分词的权重值可从多个分词中确定出至少两个关键词，进而可将至少两个关键词进行组合以得到工商企业名称对应的至少一个企业简称，其中，上述任一分词的相对位置值等于任一分词的分词出现顺序与分词数量的比值。最后，可将多个舆情文本中包括企业简称的舆情文本确定为与目标企业相关联的目标舆情文本。采用本申请实施例，可提高与企业相关的舆情文本的召回率以及召回准确率。

参见图5，图5是本申请实施例提供的终端设备的结构示意图。如图5所示，本实施例中的终端设备可以包括：一个或多个处理器401和存储器402。上述处理器401和存储器402通过总线403连接。存储器402用于存储计算机程序，该计算机程序包括程序指令，处理器401用于执行存储器402存储的程序指令，执行如下操作：

在一些可行的实施方式中，上述处理器401用于：

在一些可行的实施方式中，上述处理器401用于：

从上述至少两个关键词中随机确定出两个关键词；

在一些可行的实施方式中，上述处理器401用于：

应当理解，在一些可行的实施方式中，上述处理器401可以是中央处理单元(central processing unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor，DSP)、专用集成电路(application specific integratedcircuit，ASIC)、现成可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。该存储器402可以包括只读存储器和随机存取存储器，并向处理器401提供指令和数据。存储器402的一部分还可以包括非易失性随机存取存储器。例如，存储器402还可以存储设备类型的信息。

具体实现中，上述终端设备可通过其内置的各个功能模块执行如上述图1中各个步骤所提供的实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。

在本申请实施例中，终端设备通过获取工商企业名称，并将工商企业名称进行分词处理，可得到组成工商企业名称的多个分词，其中，工商企业名称为目标企业的企业全称。通过获取多个分词中每个分词在预设工商企业名称集合中的词频TF值和逆向文件频率IDF值，以及获取每个分词在工商企业名称中的相对位置值，可根据各分词的相对位置值、TF值和IDF值确定各个分词的权重值。其中，根据各个分词的权重值可从多个分词中确定出至少两个关键词，进而可将至少两个关键词进行组合以得到工商企业名称对应的至少一个企业简称，其中，上述任一分词的相对位置值等于任一分词的分词出现顺序与分词数量的比值。最后，可将多个舆情文本中包括企业简称的舆情文本确定为与目标企业相关联的目标舆情文本。采用本申请实施例，可提高与企业相关的舆情文本的召回率以及召回准确率。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令被处理器执行时实现图1中各个步骤所提供的舆情文本筛选方法，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。

上述计算机可读存储介质可以是前述任一实施例提供的舆情文本筛选装置或者上述终端设备的内部存储单元，例如电子设备的硬盘或内存。该计算机可读存储介质也可以是该电子设备的外部存储设备，例如该电子设备上配备的插接式硬盘，智能存储卡(smart media card,SMC)，安全数字(secure digital,SD)卡，闪存卡(flash card)等。进一步地，该计算机可读存储介质还可以既包括该电子设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该电子设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本申请的权利要求书和说明书及附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的，具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。

Claims

1.一种舆情文本筛选方法，其特征在于，所述方法包括：

获取工商企业名称，将所述工商企业名称进行分词处理以得到组成所述工商企业名称的多个分词，其中，所述工商企业名称为目标企业的企业全称；

获取所述多个分词中每个分词在预设工商企业名称集合中的词频TF值和逆向文件频率IDF值，以及获取每个分词在所述工商企业名称中的相对位置值，其中，任一分词的相对位置值等于所述任一分词的分词出现顺序与分词数量的比值；

根据各分词的相对位置值、TF值和IDF值确定各个分词的权重值，根据各个分词的权重值从所述多个分词中确定出至少两个关键词，并将所述至少两个关键词进行组合以得到所述工商企业名称对应的至少一个企业简称；

将多个舆情文本中包括所述企业简称的舆情文本确定为与所述目标企业相关联的目标舆情文本。

2.根据权利要求1所述的方法，其特征在于，所述根据各分词的相对位置值、TF值和IDF值确定各个分词的权重值，包括：

将由各分词的相对位置值组成的相对位置值序列、各分词的TF值组成的TF值序列，以及各分词的IDF值组成的IDF值序列输入分词权重计算模型，以得到所述分词权重计算模型输出的各分词对应的权重值，其中，所述分词权重计算模型H满足

其中，x为分词的相对位置值，k、n、p为所述分词权重计算模型的模型参数，所述分词权重计算模型根据所述预设工商企业名称集合中包括的各工商企业名称对应的相对位置值序列、TF值序列和IDF值序列，以及预设的权重值序列训练得到。

3.根据权利要求1或2所述的方法，其特征在于，所述根据各个分词的权重值从所述多个分词中确定出至少两个关键词，包括：

将所述各分词对应的权重值进行降序排列，获取降序排列后的前k个权重值对应的k个分词作为关键词，其中，k＝[max(w*50％,2)]，且k为整数，w为分词数量。

4.根据权利要求1或2所述的方法，其特征在于，所述根据各个分词的权重值从所述多个分词中确定出至少两个关键词，包括：

获取预设权重阈值，从各权重值对应的各分词中获取不小于所述预设权重阈值的分词作为关键词。

5.根据权利要求1所述的方法，其特征在于，所述将所述至少两个关键词进行组合以得到所述工商企业名称对应的至少一个企业简称，包括：

从所述至少两个关键词中随机确定出两个关键词；

将所述第一关键词和所述第二关键词进行拼接以组成所述工商企业名称对应的企业简称。

6.根据权利要求1所述的方法，其特征在于，所述将多个舆情文本中包括所述企业简称的舆情文本确定为与所述目标企业相关联的目标舆情文本，包括：

当从任一舆情文本中提取出的企业名称与所述企业简称匹配时，将所述任一舆情文本确定为与所述目标企业相关联的目标舆情文本。

7.根据权利要求6所述的方法，其特征在于，所述当从任一舆情文本中提取出的企业名称与所述企业简称匹配时，将所述任一舆情文本确定为与所述目标企业相关联的目标舆情文本，包括：

获取企业名称数量阈值，将任一舆情文本中企业名称数量大于所述企业名称数量阈值的企业名称确定为与所述任一舆情文本强关联的企业名称；

若与所述任一舆情文本强关联的企业名称与所述企业简称匹配，则将所述任一舆情文本确定为与所述目标企业相关联的目标舆情文本。

8.一种舆情文本筛选装置，其特征在于，所述装置包括：

分词获取模块，用于获取工商企业名称，将所述工商企业名称进行分词处理以得到组成所述工商企业名称的多个分词，其中，所述工商企业名称为目标企业的企业全称；

分词处理模块，用于获取所述多个分词中每个分词在预设工商企业名称集合中的词频TF值和逆向文件频率IDF值，以及获取每个分词在所述工商企业名称中的相对位置值，其中，任一分词的相对位置值等于所述任一分词的分词出现顺序与分词数量的比值；

企业简称确定模块，用于根据各分词的相对位置值、TF值和IDF值确定各个分词的权重值，根据各个分词的权重值从所述多个分词中确定出至少两个关键词，并将所述至少两个关键词进行组合以得到所述工商企业名称对应的至少一个企业简称；

目标文本筛选模块，用于将多个舆情文本中包括所述企业简称的舆情文本确定为与所述目标企业相关联的目标舆情文本。

9.一种终端设备，其特征在于，包括处理器和存储器，所述处理器和存储器相互连接；

所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。