CN112199588A - 舆情文本筛选方法及装置 - Google Patents

舆情文本筛选方法及装置 Download PDF

Info

Publication number
CN112199588A
CN112199588A CN202011066126.0A CN202011066126A CN112199588A CN 112199588 A CN112199588 A CN 112199588A CN 202011066126 A CN202011066126 A CN 202011066126A CN 112199588 A CN112199588 A CN 112199588A
Authority
CN
China
Prior art keywords
enterprise
name
value
public opinion
participle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011066126.0A
Other languages
English (en)
Inventor
魏晓茹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Smart Technology Co Ltd
OneConnect Financial Technology Co Ltd Shanghai
Original Assignee
OneConnect Financial Technology Co Ltd Shanghai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Financial Technology Co Ltd Shanghai filed Critical OneConnect Financial Technology Co Ltd Shanghai
Priority to CN202011066126.0A priority Critical patent/CN112199588A/zh
Publication of CN112199588A publication Critical patent/CN112199588A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Educational Administration (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Primary Health Care (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种舆情文本筛选方法及装置,其适用于风险管控和医疗领域中的远程管理。该方法包括:获取组成工商企业名称的多个分词,获取多个分词中每个分词在预设工商企业名称集合中的词频TF值和逆向文件频率IDF值,以及获取每个分词在工商企业名称中的相对位置值。根据各分词的相对位置值、TF值和IDF值确定各个分词的权重值,根据各个分词的权重值从多个分词中确定出至少两个关键词,并将至少两个关键词进行组合以得到工商企业名称对应的至少一个企业简称。将多个舆情文本中包括企业简称的舆情文本确定为与目标企业相关联的目标舆情文本。采用本申请实施例,可提高与企业相关的舆情文本的召回率以及召回准确率。

Description

舆情文本筛选方法及装置
技术领域
本申请涉及计算机技术领域,尤其涉及一种舆情文本筛选方法及装置。
背景技术
企业或政府机构为实现风险识别、或舆情分析等,其通常需要从互联网上的海量文本中获取与自身(如企业名称、政府机关名称等)相关的新闻进行挖掘分析,以从中发现风险,从而实现企业风险识别、或舆情分析等。例如,在医疗场景下,通常需要获取与医院名称相关的新闻,以进行舆情监控。目前,常用的采集和识别手段是通过对文本进行分词,进而从文本中识别出企业名称,然后从文本中挖掘出对企业风险把控有用的相关信息,并将企业名称与相关信息关联起来,从而便于发现存在风险的企业。但是,采用常规的分词方法不能从文本中把企业名称准确地切分出来,导致计算机的对企业名称的识别结果经常出现错误。这是因为,在很多新闻报道中,基于言简意赅、文体简洁等多种因素,媒体往往会运用简称来描述企业,所谓简称就是从工商企业名称(即企业全称)中抽取具有代表性的词语组成的称谓。因此,使得从海量文本中识别出的目标舆情文本与企业客户的相关性不高,且召回率也不高。
发明内容
本申请实施例提供一种舆情文本筛选方法及装置,可提高与企业相关的舆情文本的召回率以及召回准确率。
第一方面,本申请实施例提供了一种舆情文本筛选方法,该方法包括:
获取工商企业名称,将上述工商企业名称进行分词处理以得到组成上述工商企业名称的多个分词,其中,上述工商企业名称为目标企业的企业全称;
获取上述多个分词中每个分词在预设工商企业名称集合中的词频TF值和逆向文件频率IDF值,以及获取每个分词在上述工商企业名称中的相对位置值,其中,任一分词的相对位置值等于上述任一分词的分词出现顺序与分词数量的比值;
根据各分词的相对位置值、TF值和IDF值确定各个分词的权重值,根据各个分词的权重值从上述多个分词中确定出至少两个关键词,并将上述至少两个关键词进行组合以得到上述工商企业名称对应的至少一个企业简称;
将多个舆情文本中包括上述企业简称的舆情文本确定为与上述目标企业相关联的目标舆情文本。
结合第一方面,在一种可能的实施方式中,上述根据各分词的相对位置值、TF值和IDF值确定各个分词的权重值,包括:
将由各分词的相对位置值组成的相对位置值序列、各分词的TF值组成的TF值序列,以及各分词的IDF值组成的IDF值序列输入分词权重计算模型,以得到上述分词权重计算模型输出的各分词对应的权重值,其中,上述分词权重计算模型H满足
Figure BDA0002713807290000021
其中,x为分词的相对位置值,k、n、p为上述分词权重计算模型的模型参数,上述分词权重计算模型根据上述预设工商企业名称集合中包括的各工商企业名称对应的相对位置值序列、TF值序列和IDF值序列,以及预设的权重值序列训练得到。
结合第一方面,在一种可能的实施方式中,上述根据各个分词的权重值从上述多个分词中确定出至少两个关键词,包括:
将上述各分词对应的权重值进行降序排列,获取降序排列后的前k个权重值对应的k个分词作为关键词,其中,k=[max(w*50%,2)],且k为整数,w为分词数量。
结合第一方面,在一种可能的实施方式中,上述根据各个分词的权重值从上述多个分词中确定出至少两个关键词,包括:
获取预设权重阈值,从各权重值对应的各分词中获取不小于上述预设权重阈值的分词作为关键词。
结合第一方面,在一种可能的实施方式中,上述将上述至少两个关键词进行组合以得到上述工商企业名称对应的至少一个企业简称,包括:
从上述至少两个关键词中随机确定出两个关键词;
将随机确定出的两个关键词中相对位置值较小的关键词确定为第一关键词,将随机确定出的两个关键词中相对位置值较大的关键词确定为第二关键词;
将上述第一关键词和上述第二关键词进行拼接以组成上述工商企业名称对应的企业简称。
结合第一方面,在一种可能的实施方式中,上述将多个舆情文本中包括上述企业简称的舆情文本确定为与上述目标企业相关联的目标舆情文本,包括:
获取多个舆情文本,基于隐马尔可夫模型从各舆情文本中提取出企业名称;
当从任一舆情文本中提取出的企业名称与上述企业简称匹配时,将上述任一舆情文本确定为与上述目标企业相关联的目标舆情文本。
结合第一方面,在一种可能的实施方式中,上述当从任一舆情文本中提取出的企业名称与上述企业简称匹配时,将上述任一舆情文本确定为与上述目标企业相关联的目标舆情文本,包括:
分别统计从各舆情文本中提取出的各企业名称的企业名称数量;
获取企业名称数量阈值,将任一舆情文本中企业名称数量大于上述企业名称数量阈值的企业名称确定为与上述任一舆情文本强关联的企业名称;
若与上述任一舆情文本强关联的企业名称与上述企业简称匹配,则将上述任一舆情文本确定为与上述目标企业相关联的目标舆情文本。
第二方面,本申请实施例提供了一种舆情文本筛选装置,该装置包括:
分词获取模块,用于获取工商企业名称,将上述工商企业名称进行分词处理以得到组成上述工商企业名称的多个分词,其中,上述工商企业名称为目标企业的企业全称;
分词处理模块,用于获取上述多个分词中每个分词在预设工商企业名称集合中的词频TF值和逆向文件频率IDF值,以及获取每个分词在上述工商企业名称中的相对位置值,其中,任一分词的相对位置值等于上述任一分词的分词出现顺序与分词数量的比值;
企业简称确定模块,用于根据各分词的相对位置值、TF值和IDF值确定各个分词的权重值,根据各个分词的权重值从上述多个分词中确定出至少两个关键词,并将上述至少两个关键词进行组合以得到上述工商企业名称对应的至少一个企业简称;
目标文本筛选模块,用于将多个舆情文本中包括上述企业简称的舆情文本确定为与上述目标企业相关联的目标舆情文本。
结合第二方面,在一种可能的实施方式中,上述企业简称确定模块包括权重值计算单元,其中,上述权重值计算单元具体用于:
将由各分词的相对位置值组成的相对位置值序列、各分词的TF值组成的TF值序列,以及各分词的IDF值组成的IDF值序列输入分词权重计算模型,以得到上述分词权重计算模型输出的各分词对应的权重值,其中,上述分词权重计算模型H满足
Figure BDA0002713807290000041
其中,x为分词的相对位置值,k、n、p为上述分词权重计算模型的模型参数,上述分词权重计算模型根据上述预设工商企业名称集合中包括的各工商企业名称对应的相对位置值序列、TF值序列和IDF值序列,以及预设的权重值序列训练得到。
结合第二方面,在一种可能的实施方式中,上述企业简称确定模块还包括第一关键词确定单元,其中,上述第一关键词确定单元具体用于:
将上述各分词对应的权重值进行降序排列,获取降序排列后的前k个权重值对应的k个分词作为关键词,其中,k=[max(w*50%,2)],且k为整数,w为分词数量。
结合第二方面,在一种可能的实施方式中,上述企业简称确定模块还包括第二关键词确定单元,其中,上述第二关键词确定单元具体用于:
获取预设权重阈值,从各权重值对应的各分词中获取不小于上述预设权重阈值的分词作为关键词。
结合第二方面,在一种可能的实施方式中,上述企业简称确定模块还包括关键词拼接单元,其中,上述关键词拼接单元具体用于:
从上述至少两个关键词中随机确定出两个关键词;
将随机确定出的两个关键词中相对位置值较小的关键词确定为第一关键词,将随机确定出的两个关键词中相对位置值较大的关键词确定为第二关键词;
将上述第一关键词和上述第二关键词进行拼接以组成上述工商企业名称对应的企业简称。
结合第二方面,在一种可能的实施方式中,上述目标文本筛选模块包括:
企业名称提取单元,用于获取多个舆情文本,基于隐马尔可夫模型从各舆情文本中提取出企业名称;
目标舆情文本确定单元,用于当从任一舆情文本中提取出的企业名称与上述企业简称匹配时,将上述任一舆情文本确定为与上述目标企业相关联的目标舆情文本。
结合第二方面,在一种可能的实施方式中,上述目标舆情文本确定单元具体用于:
分别统计从各舆情文本中提取出的各企业名称的企业名称数量;
获取企业名称数量阈值,将任一舆情文本中企业名称数量大于上述企业名称数量阈值的企业名称确定为与上述任一舆情文本强关联的企业名称;
若与上述任一舆情文本强关联的企业名称与上述企业简称匹配,则将上述任一舆情文本确定为与上述目标企业相关联的目标舆情文本。
第三方面,本申请实施例提供了一种终端设备,该终端设备包括处理器和存储器,该处理器和存储器相互连接。该存储器用于存储支持该终端设备执行上述第一方面和/或第一方面任一种可能的实现方式提供的方法的计算机程序,该计算机程序包括程序指令,该处理器被配置用于调用上述程序指令,执行上述第一方面和/或第一方面任一种可能的实施方式所提供的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令当被处理器执行时使该处理器执行上述第一方面和/或第一方面任一种可能的实施方式所提供的方法。
在本申请实施例中,通过获取工商企业名称,并将工商企业名称进行分词处理,可得到组成工商企业名称的多个分词,其中,工商企业名称为目标企业的企业全称。通过获取多个分词中每个分词在预设工商企业名称集合中的词频TF值和逆向文件频率IDF值,以及获取每个分词在工商企业名称中的相对位置值,可根据各分词的相对位置值、TF值和IDF值确定各个分词的权重值。其中,根据各个分词的权重值可从多个分词中确定出至少两个关键词,进而可将至少两个关键词进行组合以得到工商企业名称对应的至少一个企业简称,其中,上述任一分词的相对位置值等于任一分词的分词出现顺序与分词数量的比值。最后,可将多个舆情文本中包括企业简称的舆情文本确定为与目标企业相关联的目标舆情文本。采用本申请实施例,可提高与企业相关的舆情文本的召回率以及召回准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的舆情文本筛选方法的一流程示意图;
图2是本申请实施例提供的确定企业简称的场景示意图;
图3是本申请实施例提供的舆情文本筛选装置的一结构示意图;
图4是本申请实施例提供的舆情文本筛选装置的一结构示意图;
图5是本申请实施例提供的终端设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供的舆情文本筛选方法,可以适用于医疗领域中的远程管理或远程监控等场景。例如,对与医院相关的舆情文本进行筛选等。该方法可在各种终端设备中实现,其中,上述终端设备包括但不限于服务器、智能手机、平板电脑、笔记本电脑和台式计算机等,在此不做限制。为方便描述,下面将以终端设备为例进行说明。本申请实施例中的方法,通过获取工商企业名称,并将工商企业名称进行分词处理,可得到组成工商企业名称的多个分词,其中,工商企业名称为目标企业的企业全称。通过获取多个分词中每个分词在预设工商企业名称集合中的词频(term frequency,TF)值和逆向文件频率(inversedocument frequency,IDF)值,以及获取每个分词在工商企业名称中的相对位置值,可根据各分词的相对位置值、TF值和IDF值确定各个分词的权重值。其中,根据各个分词的权重值可从多个分词中确定出至少两个关键词,进而可将至少两个关键词进行组合以得到工商企业名称对应的至少一个企业简称,其中,上述任一分词的相对位置值等于任一分词的分词出现顺序与分词数量的比值。最后,可将多个舆情文本中包括企业简称的舆情文本确定为与目标企业相关联的目标舆情文本。采用本申请实施例,可提高与企业相关的舆情文本的召回率以及召回准确率。
下面将结合图1至图5分别对本申请实施例提供的方法及相关装置分别进行详细说明。
参见图1,图1为本申请实施例提供的舆情文本筛选方法的一流程示意图。本申请实施例提供的方法可以包括如下步骤S101至S104:
S101、获取工商企业名称,将工商企业名称进行分词处理以得到组成工商企业名称的多个分词。
在一些可行的实施方式中,终端用户可通过选项、语音或者下拉菜单等一种或者多种可选输入方式,在操作界面上显示的搜索框中输入需要查询的工商企业名称,并通过点击操作界面中“确认”按钮,触发终端设备生成与该工商企业名称对应的舆情文本获取请求。其中,终端设备可实时监控操作界面上的用户操作,基于操作界面上的用户操作获取终端用户输入的工商企业名称。其中,上述工商企业名称可携带在舆情文本获取请求中。可选的,终端用户还可以通过在搜索框中输入公司注册编号,使得终端设备可根据公司注册编号确定对应的工商企业名称,以根据工商企业名称生成对应的舆情文本获取请求。其中,一个公司注册编号可用于标记一个工商企业名称。其中,当终端设备获取到舆情文本获取请求后,通过解析该舆情文本获取请求,即可获取到舆情文本获取请求中携带的工商企业名称。进而,将工商企业名称进行分词处理,可以得到组成工商企业名称的多个分词。其中,本申请实施例中的工商企业名称为目标企业的企业全称。应当理解的是,对工商企业名称进行分词处理时可使用分词工具,其中,所用到的分词工具包括但不限于jieba分词、standardanalyzer分词等,在此不做限制。
例如,假设获取到的工商企业名称为“平安科技(深圳)有限公司”,则通过对该工商企业名称进行分词处理,可得到组成该工商企业名称的多个分词分别为“平安”、“科技”、“深圳”、“有限”、“公司”。
S102、获取多个分词中每个分词在预设工商企业名称集合中的词频TF值和逆向文件频率IDF值,以及获取每个分词在工商企业名称中的相对位置值。
在一些可行的实施方式中,当获取到组成工商企业名称的多个分词后,可进一步获取上述多个分词中每个分词在预设工商企业名称集合中的词频TF值和逆向文件频率IDF值,以及获取每个分词在工商企业名称中的相对位置值。
具体地,通过将分词后的工商企业名称输入训练好的TF-IDF模型,可得到TF-IDF模型输出的每个分词在预设工商企业名称集合中的TF值和IDF值。不难理解的是,上述TF-IDF模型可根据预设工商企业名称集合中包括的大量工商注册公司的工商企业名称训练得到。其中,任一分词的在工商企业名称中的相对位置值等于上述任一分词的分词出现顺序与分词数量的比值。也就是说,分词的相对位置值=该分词出现顺序/分词数量。例如,假设输入的工商企业名称为“平安科技(深圳)有限公司”,其中,采用分词工具对该工商企业名称进行分词处理后,可得到“平安”、“科技”、“深圳”、“有限”、“公司”。其中,针对“平安”一词而言,其相对位置值为1/5,对于“科技”一词而言,其相对位置值为2/5,对于“深圳”一词而言,其相对位置值为3/5,对于“有限”一词而言,其相对位置值为4/5,对于“公司”一词而言,其相对位置值为5/5。
S103、根据各分词的相对位置值、TF值和IDF值确定各个分词的权重值,根据各个分词的权重值从多个分词中确定出至少两个关键词,并将至少两个关键词进行组合以得到工商企业名称对应的至少一个企业简称。
在一些可行的实施方式中,考虑到各专业媒体、各民间组织对于企业简称通常从企业名称的前几个词命名,故在抽取简称时,需要考虑词汇的位置对企业简称识别的影响。而词汇的位置对简称识别的影响随着出现位置呈现非线性递减关系,即前序词汇对于企业名称识别的影响均较大,末尾的词汇对企业简称识别的影响迅速减缩。因此,考虑到各分词的相对位置值对于各分词在工商企业名称中重要程度的影响,本申请实施例可根据每个分词对应的TF值、IDF值以及相对位置值确定出每个分词所在工商企业名称中的分词重要程度,即分词的权重值。
具体地,可将由各分词的相对位置值组成的相对位置值序列、各分词的TF值组成的TF值序列,以及各分词的IDF值组成的IDF值序列输入分词权重计算模型,以得到分词权重计算模型输出的各分词对应的权重值。其中,分词权重计算模型H满足
Figure BDA0002713807290000081
其中,x为分词的相对位置值,k、n、p为分词权重计算模型的模型参数。
应当理解的是,上述分词权重计算模型可根据预设工商企业名称集合中包括的各工商企业名称对应的相对位置值序列、TF值序列和IDF值序列,以及预设的权重值序列训练得到。也就是说,本申请实施例可通过大量训练样本(例如,5000-10000个样本)对模型
Figure BDA0002713807290000082
进行有监督训练,以得到收敛的分词权重计算模型。
其中,每个训练样本可由预设工商企业名称集合中包括的一个工商企业名称对应的各第一分词的相对位置值组成的相对位置值序列、各第一分词对应的TF值组成的词频值序列、各第一分词对应的IDF值组成的逆文件频率值序列、以及各第一分词对应的权重值组成的权重值序列组成。其中,各第一分词对应的权重值可通过人工预先标记好的。因此,通过将大量训练样本输入模型
Figure BDA0002713807290000091
可基于大量训练样本对该模型
Figure BDA0002713807290000092
的模型参数(即k,p,n)进行训练,直到训练得到的模型收敛时停止训练。
通常而言,模型参数k,p,n均为正数,且k>0,n>1,p>1。具体地,各模型参数的训练可遵循如下公式,即k,p,n的组合可满足:
Figure BDA0002713807290000093
其中,w为每个训练样本中包括的分词数量,yi为各个分词的权重值组成的权重值序列,TFi为各个分词的TF值组成的TF值序列,IDFi为各分词的IDF值组成的IDF值序列。通过对上式求偏导,即令
Figure BDA0002713807290000094
即可得到k的值。同理,通过分别对p,n求偏导,即可得到模型参数p和n的值。
在一些可行的实施方式中,当确定出各分词对应权重值后,可进一步根据各个分词的权重值从多个分词中确定出至少两个关键词,并将至少两个关键词进行组合以得到工商企业名称对应的至少一个企业简称。
其中,可将各分词对应的权重值进行降序排列,以获取降序排列后的前k个权重值对应的k个分词作为关键词,其中,k=[max(w*50%,2)],且k为整数,w为分词数量。也就是说,关键词个数的确定方式可以为k=[max(w*50%,2)],即关键词个数为不大于max(w*50%,2)的最大整数。其中,w为对工商企业名称进行分词处理后得到的分词数量。例如,同样以“平安科技深圳有限公司”为例,其中w=5,因此,上述关键词个数k为2。也就是说,可根据多个分词中每个分词对应的权重值以及确定出的关键词个数从工商企业名称中确定出权重值最大的k个分词作为关键词。可选的,还可以通过获取预设权重阈值,并从各权重值对应的各分词中获取不小于所述预设权重阈值的分词作为关键词。也就是说,可将大于或者等于上述预设权重阈值的多个分词作为工商企业名称对应的关键词。
进一步地,在一些可行的实施方式中,可将确定出的各关键词按照其在工商企业名称中的出现顺序进行组合,以作为工商企业名称对应的缩略词(即企业简称)。也就是说,在生成企业简称时,每次可从所述至少两个关键词中随机确定出两个关键词,然后将随机确定出的两个关键词中相对位置值较小的关键词确定为第一关键词,将随机确定出的两个关键词中相对位置值较大的关键词确定为第二关键词。通过将所述第一关键词和所述第二关键词进行拼接,可组成所述工商企业名称对应的企业简称。
举例来说,请参见图2,图2是本申请实施例提供的确定企业简称的场景示意图。如图2所示,假设组成某一工商企业名称的多个分词分别为“A1 A2 A3 A4 A5 A6”,其中,假设“A1”的权重值为0.8,“A2”的权重值为0.76,“A3”的权重值为0.75,“A4”的权重值为0.15,“A5”的权重值为0.15,“A6”的权重值为0.10。因此,根据分词数量w=6,可得到关键词个数k=3。也就是说,可将上述6个分词中的权重值最大的3个分词(即A1、A2和A3)确定为关键词。进一步地,根据各关键词在工商企业名称中的出现顺序(即相对位置值),可得到3种组合方式的企业简称,分别为①A1,A2;②A2,A3;③A1,A3。
S104、将多个舆情文本中包括企业简称的舆情文本确定为与目标企业相关联的目标舆情文本。
在一些可行的实施方式中,可将多个舆情文本中包括上述企业简称的舆情文本确定为与目标企业相关联的目标舆情文本。也就是说,可将上述获取到的企业简称与舆情文本集合中包括的各舆情文本逐一进行匹配,当某个舆情文本中包括上述至少一个企业简称的任一个企业简称时,可将该舆情文本确定为与目标企业相关联的目标舆情文本。
其中,为加快舆情文本的筛选效率,针对舆情文本集合中包括的每个舆情文本,可首先基于隐马尔可夫模型从各舆情文本中提取出企业名称。然后,将从舆情文本中提取出的企业名称与上述确定出的各企业简称进行匹配,当从任一舆情文本中提取出的企业名称与企业简称匹配时,可将任一舆情文本确定为与目标企业相关联的目标舆情文本。其中,上述隐马尔可夫模型可根据大量舆情文本通过无监督的训练方式训练得到。
可选的,在一些可行的实施方式中,为进一步提高从海量舆情文本中识别出的目标舆情文本与企业客户的相关性,当从各舆情文本中提取出企业名称后,还可以分别统计从各舆情文本中提取出的各企业名称的企业名称数量。然后,获取企业名称数量阈值,将任一舆情文本中企业名称数量大于企业名称数量阈值的企业名称确定为与该舆情文本强关联的企业名称。进而,将与该舆情文本强关联的企业名称与上述确定出的企业简称进行匹配,当上述与舆情文本强关联的企业名称与企业简称匹配时,则将该舆情文本确定为与目标企业相关联的目标舆情文本。
在本申请实施例中,通过获取工商企业名称,并将工商企业名称进行分词处理,可得到组成工商企业名称的多个分词,其中,工商企业名称为目标企业的企业全称。通过获取多个分词中每个分词在预设工商企业名称集合中的词频TF值和逆向文件频率IDF值,以及获取每个分词在工商企业名称中的相对位置值,可根据各分词的相对位置值、TF值和IDF值确定各个分词的权重值。其中,根据各个分词的权重值可从多个分词中确定出至少两个关键词,进而可将至少两个关键词进行组合以得到工商企业名称对应的至少一个企业简称,其中,上述任一分词的相对位置值等于任一分词的分词出现顺序与分词数量的比值。最后,可将多个舆情文本中包括企业简称的舆情文本确定为与目标企业相关联的目标舆情文本。采用本申请实施例,可提高与企业相关的舆情文本的召回率以及召回准确率。
参见图3,图3是本申请实施例提供的舆情文本筛选装置的结构示意图。本申请实施例提供的舆情文本筛选装置包括:
分词获取模块31,用于获取工商企业名称,将上述工商企业名称进行分词处理以得到组成上述工商企业名称的多个分词,其中,上述工商企业名称为目标企业的企业全称;
分词处理模块32,用于获取上述多个分词中每个分词在预设工商企业名称集合中的词频TF值和逆向文件频率IDF值,以及获取每个分词在上述工商企业名称中的相对位置值,其中,任一分词的相对位置值等于上述任一分词的分词出现顺序与分词数量的比值;
企业简称确定模块33,用于根据各分词的相对位置值、TF值和IDF值确定各个分词的权重值,根据各个分词的权重值从上述多个分词中确定出至少两个关键词,并将上述至少两个关键词进行组合以得到上述工商企业名称对应的至少一个企业简称;
目标文本筛选模块34,用于将多个舆情文本中包括上述企业简称的舆情文本确定为与上述目标企业相关联的目标舆情文本。
请一并参见图4,图4是本申请实施例提供的舆情文本筛选装置的一结构示意图。
在一些可行的实施方式中,上述企业简称确定模块33包括权重值计算单元331,其中,上述权重值计算单元331具体用于:
将由各分词的相对位置值组成的相对位置值序列、各分词的TF值组成的TF值序列,以及各分词的IDF值组成的IDF值序列输入分词权重计算模型,以得到上述分词权重计算模型输出的各分词对应的权重值,其中,上述分词权重计算模型H满足
Figure BDA0002713807290000121
其中,x为分词的相对位置值,k、n、p为上述分词权重计算模型的模型参数,上述分词权重计算模型根据上述预设工商企业名称集合中包括的各工商企业名称对应的相对位置值序列、TF值序列和IDF值序列,以及预设的权重值序列训练得到。
在一些可行的实施方式中,上述企业简称确定模块33还包括第一关键词确定单元332,其中,上述第一关键词确定单元332具体用于:
将上述各分词对应的权重值进行降序排列,获取降序排列后的前k个权重值对应的k个分词作为关键词,其中,k=[max(w*50%,2)],且k为整数,w为分词数量。
在一些可行的实施方式中,上述企业简称确定模块33还包括第二关键词确定单元333,其中,上述第二关键词确定单元333具体用于:
获取预设权重阈值,从各权重值对应的各分词中获取不小于上述预设权重阈值的分词作为关键词。
在一些可行的实施方式中,上述企业简称确定模块33还包括关键词拼接单元334,其中,上述关键词拼接单元334具体用于:
从上述至少两个关键词中随机确定出两个关键词;
将随机确定出的两个关键词中相对位置值较小的关键词确定为第一关键词,将随机确定出的两个关键词中相对位置值较大的关键词确定为第二关键词;
将上述第一关键词和上述第二关键词进行拼接以组成上述工商企业名称对应的企业简称。
在一些可行的实施方式中,上述目标文本筛选模块34包括:
企业名称提取单元341,用于获取多个舆情文本,基于隐马尔可夫模型从各舆情文本中提取出企业名称;
目标舆情文本确定单元342,用于当从任一舆情文本中提取出的企业名称与上述企业简称匹配时,将上述任一舆情文本确定为与上述目标企业相关联的目标舆情文本。
在一些可行的实施方式中,上述目标舆情文本确定单元342具体用于:
分别统计从各舆情文本中提取出的各企业名称的企业名称数量;
获取企业名称数量阈值,将任一舆情文本中企业名称数量大于上述企业名称数量阈值的企业名称确定为与上述任一舆情文本强关联的企业名称;
若与上述任一舆情文本强关联的企业名称与上述企业简称匹配,则将上述任一舆情文本确定为与上述目标企业相关联的目标舆情文本。
具体实现中,上述舆情文本筛选装置可通过其内置的各个功能模块执行如上述图1中各个步骤所提供的实现方式。例如,上述分词获取模块31可用于执行上述各个步骤中获取工商企业名称,以及对工商企业名称进行分词处理等实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。上述分词处理模块32可用于执行上述各个步骤中获取多个分词中每个分词在预设工商企业名称集合中的词频TF值和逆向文件频率IDF值,以及获取每个分词在工商企业名称中的相对位置值等相关步骤所描述的实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。上述企业简称确定模块33可用于执行上述各个步骤中根据各分词的相对位置值、TF值和IDF值确定各个分词的权重值、根据各个分词的权重值从多个分词中确定出至少两个关键词以及将关键词组合成企业简称等实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。上述目标文本筛选模块34可用于执行上述各个步骤中将多个舆情文本中包括企业简称的舆情文本确定为与目标企业相关联的目标舆情文本等实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
在本申请实施例中,舆情文本筛选装置通过获取工商企业名称,并将工商企业名称进行分词处理,可得到组成工商企业名称的多个分词,其中,工商企业名称为目标企业的企业全称。通过获取多个分词中每个分词在预设工商企业名称集合中的词频TF值和逆向文件频率IDF值,以及获取每个分词在工商企业名称中的相对位置值,可根据各分词的相对位置值、TF值和IDF值确定各个分词的权重值。其中,根据各个分词的权重值可从多个分词中确定出至少两个关键词,进而可将至少两个关键词进行组合以得到工商企业名称对应的至少一个企业简称,其中,上述任一分词的相对位置值等于任一分词的分词出现顺序与分词数量的比值。最后,可将多个舆情文本中包括企业简称的舆情文本确定为与目标企业相关联的目标舆情文本。采用本申请实施例,可提高与企业相关的舆情文本的召回率以及召回准确率。
参见图5,图5是本申请实施例提供的终端设备的结构示意图。如图5所示,本实施例中的终端设备可以包括:一个或多个处理器401和存储器402。上述处理器401和存储器402通过总线403连接。存储器402用于存储计算机程序,该计算机程序包括程序指令,处理器401用于执行存储器402存储的程序指令,执行如下操作:
获取工商企业名称,将上述工商企业名称进行分词处理以得到组成上述工商企业名称的多个分词,其中,上述工商企业名称为目标企业的企业全称;
获取上述多个分词中每个分词在预设工商企业名称集合中的词频TF值和逆向文件频率IDF值,以及获取每个分词在上述工商企业名称中的相对位置值,其中,任一分词的相对位置值等于上述任一分词的分词出现顺序与分词数量的比值;
根据各分词的相对位置值、TF值和IDF值确定各个分词的权重值,根据各个分词的权重值从上述多个分词中确定出至少两个关键词,并将上述至少两个关键词进行组合以得到上述工商企业名称对应的至少一个企业简称;
将多个舆情文本中包括上述企业简称的舆情文本确定为与上述目标企业相关联的目标舆情文本。
在一些可行的实施方式中,上述处理器401用于:
将由各分词的相对位置值组成的相对位置值序列、各分词的TF值组成的TF值序列,以及各分词的IDF值组成的IDF值序列输入分词权重计算模型,以得到上述分词权重计算模型输出的各分词对应的权重值,其中,上述分词权重计算模型H满足
Figure BDA0002713807290000141
其中,x为分词的相对位置值,k、n、p为上述分词权重计算模型的模型参数,上述分词权重计算模型根据上述预设工商企业名称集合中包括的各工商企业名称对应的相对位置值序列、TF值序列和IDF值序列,以及预设的权重值序列训练得到。
在一些可行的实施方式中,上述处理器401用于:
将上述各分词对应的权重值进行降序排列,获取降序排列后的前k个权重值对应的k个分词作为关键词,其中,k=[max(w*50%,2)],且k为整数,w为分词数量。
在一些可行的实施方式中,上述处理器401用于:
获取预设权重阈值,从各权重值对应的各分词中获取不小于上述预设权重阈值的分词作为关键词。
在一些可行的实施方式中,上述处理器401用于:
从上述至少两个关键词中随机确定出两个关键词;
将随机确定出的两个关键词中相对位置值较小的关键词确定为第一关键词,将随机确定出的两个关键词中相对位置值较大的关键词确定为第二关键词;
将上述第一关键词和上述第二关键词进行拼接以组成上述工商企业名称对应的企业简称。
在一些可行的实施方式中,上述处理器401用于:
获取多个舆情文本,基于隐马尔可夫模型从各舆情文本中提取出企业名称;
当从任一舆情文本中提取出的企业名称与上述企业简称匹配时,将上述任一舆情文本确定为与上述目标企业相关联的目标舆情文本。
在一些可行的实施方式中,上述处理器401用于:
分别统计从各舆情文本中提取出的各企业名称的企业名称数量;
获取企业名称数量阈值,将任一舆情文本中企业名称数量大于上述企业名称数量阈值的企业名称确定为与上述任一舆情文本强关联的企业名称;
若与上述任一舆情文本强关联的企业名称与上述企业简称匹配,则将上述任一舆情文本确定为与上述目标企业相关联的目标舆情文本。
应当理解,在一些可行的实施方式中,上述处理器401可以是中央处理单元(central processing unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor,DSP)、专用集成电路(application specific integratedcircuit,ASIC)、现成可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。该存储器402可以包括只读存储器和随机存取存储器,并向处理器401提供指令和数据。存储器402的一部分还可以包括非易失性随机存取存储器。例如,存储器402还可以存储设备类型的信息。
具体实现中,上述终端设备可通过其内置的各个功能模块执行如上述图1中各个步骤所提供的实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
在本申请实施例中,终端设备通过获取工商企业名称,并将工商企业名称进行分词处理,可得到组成工商企业名称的多个分词,其中,工商企业名称为目标企业的企业全称。通过获取多个分词中每个分词在预设工商企业名称集合中的词频TF值和逆向文件频率IDF值,以及获取每个分词在工商企业名称中的相对位置值,可根据各分词的相对位置值、TF值和IDF值确定各个分词的权重值。其中,根据各个分词的权重值可从多个分词中确定出至少两个关键词,进而可将至少两个关键词进行组合以得到工商企业名称对应的至少一个企业简称,其中,上述任一分词的相对位置值等于任一分词的分词出现顺序与分词数量的比值。最后,可将多个舆情文本中包括企业简称的舆情文本确定为与目标企业相关联的目标舆情文本。采用本申请实施例,可提高与企业相关的舆情文本的召回率以及召回准确率。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令被处理器执行时实现图1中各个步骤所提供的舆情文本筛选方法,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
上述计算机可读存储介质可以是前述任一实施例提供的舆情文本筛选装置或者上述终端设备的内部存储单元,例如电子设备的硬盘或内存。该计算机可读存储介质也可以是该电子设备的外部存储设备,例如该电子设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。进一步地,该计算机可读存储介质还可以既包括该电子设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该电子设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本申请的权利要求书和说明书及附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的,具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。

Claims (10)

1.一种舆情文本筛选方法,其特征在于,所述方法包括:
获取工商企业名称,将所述工商企业名称进行分词处理以得到组成所述工商企业名称的多个分词,其中,所述工商企业名称为目标企业的企业全称;
获取所述多个分词中每个分词在预设工商企业名称集合中的词频TF值和逆向文件频率IDF值,以及获取每个分词在所述工商企业名称中的相对位置值,其中,任一分词的相对位置值等于所述任一分词的分词出现顺序与分词数量的比值;
根据各分词的相对位置值、TF值和IDF值确定各个分词的权重值,根据各个分词的权重值从所述多个分词中确定出至少两个关键词,并将所述至少两个关键词进行组合以得到所述工商企业名称对应的至少一个企业简称;
将多个舆情文本中包括所述企业简称的舆情文本确定为与所述目标企业相关联的目标舆情文本。
2.根据权利要求1所述的方法,其特征在于,所述根据各分词的相对位置值、TF值和IDF值确定各个分词的权重值,包括:
将由各分词的相对位置值组成的相对位置值序列、各分词的TF值组成的TF值序列,以及各分词的IDF值组成的IDF值序列输入分词权重计算模型,以得到所述分词权重计算模型输出的各分词对应的权重值,其中,所述分词权重计算模型H满足
Figure FDA0002713807280000011
其中,x为分词的相对位置值,k、n、p为所述分词权重计算模型的模型参数,所述分词权重计算模型根据所述预设工商企业名称集合中包括的各工商企业名称对应的相对位置值序列、TF值序列和IDF值序列,以及预设的权重值序列训练得到。
3.根据权利要求1或2所述的方法,其特征在于,所述根据各个分词的权重值从所述多个分词中确定出至少两个关键词,包括:
将所述各分词对应的权重值进行降序排列,获取降序排列后的前k个权重值对应的k个分词作为关键词,其中,k=[max(w*50%,2)],且k为整数,w为分词数量。
4.根据权利要求1或2所述的方法,其特征在于,所述根据各个分词的权重值从所述多个分词中确定出至少两个关键词,包括:
获取预设权重阈值,从各权重值对应的各分词中获取不小于所述预设权重阈值的分词作为关键词。
5.根据权利要求1所述的方法,其特征在于,所述将所述至少两个关键词进行组合以得到所述工商企业名称对应的至少一个企业简称,包括:
从所述至少两个关键词中随机确定出两个关键词;
将随机确定出的两个关键词中相对位置值较小的关键词确定为第一关键词,将随机确定出的两个关键词中相对位置值较大的关键词确定为第二关键词;
将所述第一关键词和所述第二关键词进行拼接以组成所述工商企业名称对应的企业简称。
6.根据权利要求1所述的方法,其特征在于,所述将多个舆情文本中包括所述企业简称的舆情文本确定为与所述目标企业相关联的目标舆情文本,包括:
获取多个舆情文本,基于隐马尔可夫模型从各舆情文本中提取出企业名称;
当从任一舆情文本中提取出的企业名称与所述企业简称匹配时,将所述任一舆情文本确定为与所述目标企业相关联的目标舆情文本。
7.根据权利要求6所述的方法,其特征在于,所述当从任一舆情文本中提取出的企业名称与所述企业简称匹配时,将所述任一舆情文本确定为与所述目标企业相关联的目标舆情文本,包括:
分别统计从各舆情文本中提取出的各企业名称的企业名称数量;
获取企业名称数量阈值,将任一舆情文本中企业名称数量大于所述企业名称数量阈值的企业名称确定为与所述任一舆情文本强关联的企业名称;
若与所述任一舆情文本强关联的企业名称与所述企业简称匹配,则将所述任一舆情文本确定为与所述目标企业相关联的目标舆情文本。
8.一种舆情文本筛选装置,其特征在于,所述装置包括:
分词获取模块,用于获取工商企业名称,将所述工商企业名称进行分词处理以得到组成所述工商企业名称的多个分词,其中,所述工商企业名称为目标企业的企业全称;
分词处理模块,用于获取所述多个分词中每个分词在预设工商企业名称集合中的词频TF值和逆向文件频率IDF值,以及获取每个分词在所述工商企业名称中的相对位置值,其中,任一分词的相对位置值等于所述任一分词的分词出现顺序与分词数量的比值;
企业简称确定模块,用于根据各分词的相对位置值、TF值和IDF值确定各个分词的权重值,根据各个分词的权重值从所述多个分词中确定出至少两个关键词,并将所述至少两个关键词进行组合以得到所述工商企业名称对应的至少一个企业简称;
目标文本筛选模块,用于将多个舆情文本中包括所述企业简称的舆情文本确定为与所述目标企业相关联的目标舆情文本。
9.一种终端设备,其特征在于,包括处理器和存储器,所述处理器和存储器相互连接;
所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。
CN202011066126.0A 2020-09-30 2020-09-30 舆情文本筛选方法及装置 Pending CN112199588A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011066126.0A CN112199588A (zh) 2020-09-30 2020-09-30 舆情文本筛选方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011066126.0A CN112199588A (zh) 2020-09-30 2020-09-30 舆情文本筛选方法及装置

Publications (1)

Publication Number Publication Date
CN112199588A true CN112199588A (zh) 2021-01-08

Family

ID=74012979

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011066126.0A Pending CN112199588A (zh) 2020-09-30 2020-09-30 舆情文本筛选方法及装置

Country Status (1)

Country Link
CN (1) CN112199588A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113240322A (zh) * 2021-05-31 2021-08-10 平安科技(深圳)有限公司 气候风险披露质量方法、装置、电子设备及存储介质
CN113869639A (zh) * 2021-08-26 2021-12-31 中国环境科学研究院 长江流域企业筛选方法、装置、电子设备及存储介质
CN114048304A (zh) * 2021-10-26 2022-02-15 盐城金堤科技有限公司 有效关键词确定方法、装置、存储介质和电子设备
CN114611515A (zh) * 2022-01-28 2022-06-10 江苏省联合征信有限公司 一种基于企业舆情信息识别企业实际控制人的方法和系统
CN117112773A (zh) * 2023-09-08 2023-11-24 中航机载系统共性技术有限公司 一种基于nlp的适航非结构化数据的搜索方法及装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113240322A (zh) * 2021-05-31 2021-08-10 平安科技(深圳)有限公司 气候风险披露质量方法、装置、电子设备及存储介质
CN113240322B (zh) * 2021-05-31 2023-05-26 平安科技(深圳)有限公司 气候风险披露质量方法、装置、电子设备及存储介质
CN113869639A (zh) * 2021-08-26 2021-12-31 中国环境科学研究院 长江流域企业筛选方法、装置、电子设备及存储介质
CN113869639B (zh) * 2021-08-26 2023-11-07 中国环境科学研究院 长江流域企业筛选方法、装置、电子设备及存储介质
CN114048304A (zh) * 2021-10-26 2022-02-15 盐城金堤科技有限公司 有效关键词确定方法、装置、存储介质和电子设备
CN114611515A (zh) * 2022-01-28 2022-06-10 江苏省联合征信有限公司 一种基于企业舆情信息识别企业实际控制人的方法和系统
CN114611515B (zh) * 2022-01-28 2023-12-12 江苏省联合征信有限公司 一种基于企业舆情信息识别企业实际控制人的方法和系统
CN117112773A (zh) * 2023-09-08 2023-11-24 中航机载系统共性技术有限公司 一种基于nlp的适航非结构化数据的搜索方法及装置

Similar Documents

Publication Publication Date Title
CN108804512B (zh) 文本分类模型的生成装置、方法及计算机可读存储介质
CN112199588A (zh) 舆情文本筛选方法及装置
US8688690B2 (en) Method for calculating semantic similarities between messages and conversations based on enhanced entity extraction
CN110472027B (zh) 意图识别方法、设备及计算机可读存储介质
CN111814770B (zh) 一种新闻视频的内容关键词提取方法、终端设备及介质
WO2020140373A1 (zh) 一种意图识别方法、识别设备及计算机可读存储介质
US9697819B2 (en) Method for building a speech feature library, and method, apparatus, device, and computer readable storage media for speech synthesis
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
EP2378476A1 (en) Method for calculating entity similarities
CN110597994A (zh) 事件元素识别方法和装置
CN109597874B (zh) 信息推荐方法、装置及服务器
CN108959247B (zh) 一种数据处理方法、服务器及计算机可读介质
CN109299235B (zh) 知识库搜索方法、装置及计算机可读存储介质
WO2022116419A1 (zh) 域名侵权的自动化判定方法、装置、电子设备和存储介质
CN110427453B (zh) 数据的相似度计算方法、装置、计算机设备及存储介质
CN109947903B (zh) 一种成语查询方法及装置
CN111767713A (zh) 关键词的提取方法、装置、电子设备及存储介质
CN113076735A (zh) 目标信息的获取方法、装置和服务器
CN110941702A (zh) 一种法律法规和法条的检索方法及装置、可读存储介质
CN107357782B (zh) 一种识别用户性别的方法及终端
CN110263121B (zh) 表格数据处理方法、装置、电子装置及计算机可读存储介质
CN111400448A (zh) 对象的关联关系分析方法及装置
CN111858966B (zh) 知识图谱的更新方法、装置、终端设备及可读存储介质
CN110738048B (zh) 一种关键词提取方法、装置及终端设备
CN108628875B (zh) 一种文本标签的提取方法、装置及服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
CB02 Change of applicant information

Address after: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.)

Applicant after: ONECONNECT FINANCIAL TECHNOLOGY Co.,Ltd. (SHANGHAI)

Address before: Room 201, Building A, No. 1 Qianwan Road, Qianhaisheng Cooperation Zone, Shenzhen City, Guangdong Province, 518000

Applicant before: ONECONNECT FINANCIAL TECHNOLOGY Co.,Ltd. (SHANGHAI)

CB02 Change of applicant information
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination