CN115438145A - 企业详情内链的添加方法及装置 - Google Patents
企业详情内链的添加方法及装置 Download PDFInfo
- Publication number
- CN115438145A CN115438145A CN202210386164.7A CN202210386164A CN115438145A CN 115438145 A CN115438145 A CN 115438145A CN 202210386164 A CN202210386164 A CN 202210386164A CN 115438145 A CN115438145 A CN 115438145A
- Authority
- CN
- China
- Prior art keywords
- enterprise
- keyword
- public opinion
- news text
- opinion news
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000001914 filtration Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 238000000547 structure data Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 7
- 230000007935 neutral effect Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 5
- 238000007792 addition Methods 0.000 description 2
- 230000002860 competitive effect Effects 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3322—Query formulation using system suggestions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/387—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Library & Information Science (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
一种企业详情内链的添加方法及装置,该方法包括:对舆情新闻文本进行企业关键词匹配,并记录匹配到的每个企业关键词以及所述每个企业关键词在所述舆情新闻文本中的位置信息,其中,所述企业关键词包括企业的全称、简称、项目品牌、股票代码、股票名称、投资机构中的一种或多种;以及基于所记录的企业关键词以及对应的位置信息,在所述舆情新闻文本中添加对应的企业详情内链。通过本发明实施例提供的方法及装置,解决了解决现有的内链添加方式遗漏较多以及可用性较低的问题,能够迅速、准确的获取到数据匹配结果,直白将用户想了解的相关企业所有舆情展现在用户面前,降低了用户的阅读查询成本,提高了用户体验。
Description
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种企业详情内链的添加方法、装置、计算机可读存储介质及电子设备。
背景技术
现有的内链添加方式主要包括人工添加和自动添加。人工添加内链不仅需要消耗大量的人力,而且添加内链的过程往往受到人为经验的影响,不够全面。
自动添加内链的过程往往将目标企业的全称或者目标企业的简称作为关键字对与目标企业相关的信息进行搜索。在实际应用场景中,即使存在与目标企业相关全文,但是全文中并没有出现目标企业的全称,或者并没有出现目标企业的简称;这样,在上述搜索过程中,会漏掉大量的与目标企业相关的全文信息,导致搜索到的与目标企业相关的全文信息并不全面。
发明内容
鉴于此,本发明提出了一种企业详情内链的添加方法及装置,以解决现有的内链添加方式遗漏较多以及可用性较低的问题。
第一方面,本发明实施例提供了一种企业详情内链的添加方法,包括:对舆情新闻文本进行企业关键词匹配,并记录匹配到的每个企业关键词以及所述每个企业关键词在所述舆情新闻文本中的位置信息,其中,所述企业关键词包括企业的全称、简称、项目品牌、股票代码、股票名称、投资机构中的一种或多种;以及基于所记录的企业关键词以及对应的位置信息,在所述舆情新闻文本中添加对应的企业详情内链。
进一步地,其中,对舆情新闻文本进行企业关键词匹配,包括:利用前缀树对所述舆情新闻文本进行企业关键词匹配,其中,所述前缀树是根据多个企业的企业结构数据预先构建的,每个企业的企业结构数据包括企业的全称、简称、项目品牌、股票代码、股票名称、投资机构中的一种或多种。
进一步地,其中,利用前缀树对舆情新闻文本进行企业关键词匹配,包括:在所述舆情新闻文本中初始化索引位;从索引位字开始逐字与所述前缀树进行匹配,截取第一关键字与第三关键字之间的关键词以作为一个企业关键词,其中,第一关键字是从所述索引位字开始到首次出现与所述前缀树匹配的关键字;第二关键字是从所述第一关键字开始到首次出现与所述前缀树不匹配的关键字;第三关键字是位于所述第二关键字之前且与所述第二关键字紧邻的关键字。
进一步地,其中,基于所记录的企业关键词以及对应的位置信息,在所述舆情新闻文本中添加对应的企业详情内链,包括:基于所记录的每个企业关键词以及所述每个企业关键词对应的位置信息,在所述舆情新闻文本中为所述每个企业关键词添加对应的企业详情内链。
进一步地,其中,基于所记录的企业关键词以及对应的位置信息,在所述舆情新闻文本中添加对应的企业详情内链,包括:从所记录的企业关键词中滤除纯英文的关键词、长度小于等于预设长度的关键词、属于预设白名单中的关键词中的至少之一,并基于记录的位置信息在所述舆情新闻文本中为剩余的每个企业关键词添加对应的企业详情内链。
进一步地,其中,基于所记录的企业关键词以及对应的位置信息,在所述舆情新闻文本中添加对应的企业详情内链,包括:在所述舆情新闻文本为正向或者中性舆情新闻的情况下,从所记录的企业关键词中滤除纯英文的关键词、长度小于等于预设长度的关键词中的至少之一,并基于记录的位置信息在所述舆情新闻文本中为剩余的每个企业关键词添加对应的企业详情内链。
进一步地,其中,基于所记录的企业关键词以及对应的位置信息,在所述舆情新闻文本中添加对应的企业详情内链的过程中,针对目标企业关键词对应的数据标识不唯一的情况,根据与所述目标企业关键词对应的多个数据标识,确定与所述多个数据标识对应的多个企业各自的注册地;以及根据所述多个企业各自的注册地,在所述舆情新闻文本中为所述目标企业关键词添加对应的企业详情内链。
第二方面,本发明实施例还提供了一种企业详情内链的添加装置,包括:企业关键词匹配单元,用于对舆情新闻文本进行企业关键词匹配,并记录匹配到的每个企业关键词以及所述每个企业关键词在所述舆情新闻文本中的位置信息,其中,所述企业关键词包括企业的全称、简称、项目品牌、股票代码、股票名称、投资机构中的一种或多种;以及企业详情内链添加单元,用于基于所记录的企业关键词以及对应的位置信息,在所述舆情新闻文本中添加对应的企业详情内链。
进一步地,其中,对舆情新闻文本进行企业关键词匹配,包括:利用前缀树对所述舆情新闻文本进行企业关键词匹配,其中,所述前缀树是根据多个企业的企业结构数据预先构建的,每个企业的企业结构数据包括企业的全称、简称、项目品牌、股票代码、股票名称、投资机构中的一种或多种。
进一步地,其中,利用前缀树对舆情新闻文本进行企业关键词匹配,包括:在所述舆情新闻文本中初始化索引位;从索引位字开始逐字与所述前缀树进行匹配,截取第一关键字与第三关键字之间的关键词以作为一个企业关键词,其中,第一关键字是从所述索引位字开始到首次出现与所述前缀树匹配的关键字;第二关键字是从所述第一关键字开始到首次出现与所述前缀树不匹配的关键字;第三关键字是位于所述第二关键字之前且与所述第二关键字紧邻的关键字。
进一步地,其中,企业详情内链添加单元,还用于:基于所记录的每个企业关键词以及所述每个企业关键词对应的位置信息,在所述舆情新闻文本中为所述每个企业关键词添加对应的企业详情内链。
进一步地,其中,企业详情内链添加单元,还用于:从所记录的企业关键词中滤除纯英文的关键词、长度小于等于预设长度的关键词、属于预设白名单中的关键词中的至少之一,并基于记录的位置信息在所述舆情新闻文本中为剩余的每个企业关键词添加对应的企业详情内链。
进一步地,其中,基于所记录的企业关键词以及对应的位置信息,在所述舆情新闻文本中添加对应的企业详情内链,包括:在所述舆情新闻文本为正向或者中性舆情新闻的情况下,从所记录的企业关键词中滤除纯英文的关键词、长度小于等于预设长度的关键词中的至少之一,并基于记录的位置信息在所述舆情新闻文本中为剩余的每个企业关键词添加对应的企业详情内链。
进一步地,其中,基于所记录的企业关键词以及对应的位置信息,在所述舆情新闻文本中添加对应的企业详情内链的过程中,针对目标企业关键词对应的数据标识不唯一的情况,根据与所述目标企业关键词对应的多个数据标识,确定与所述多个数据标识对应的多个企业各自的注册地;以及根据所述多个企业各自的注册地,在所述舆情新闻文本中为所述目标企业关键词添加对应的企业详情内链。
第三方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本发明各实施例提供的方法。
第四方面,本发明实施例还提供了一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现本发明各实施例提供的方法。
本发明实施例提供的企业详情内链的添加方法及装置,通过对舆情新闻文本进行企业关键词匹配,并记录匹配到的每个企业关键词以及每个企业关键词在舆情新闻文本中的位置信息,以及基于所记录的企业关键词以及对应的位置信息,在舆情新闻文本中添加对应的企业详情内链,一方面,能够迅速、准确的获取到数据匹配结果,且为用户提供清晰的涉及企业,深入用户需求,直白将用户想了解的相关企业所有舆情展现在用户面前,降低了用户的阅读查询成本,提高了用户体验,另一方面当用户阅读舆情时,点击该舆情涉及企业全称、简称或项目品牌时可直接跳转至企业详细,让用户直观了解该舆情涉及企业情况。
附图说明
图1为本发明一个示例性的实施例提供的系统架构示意图;
图2为本发明一个示例性的实施例提供的企业详情内链的添加方法的流程图;
图3为本发明一个示例性的实施例提供的前缀树数据结构的示意图;
图4为本发明一个示例性的实施例提供的企业详情内链的添加装置的结构示意图;
图5为本发明一个示例性的实施例提供的电子设备的框图。
具体实施方式
现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。
图1为本发明一个示例性的实施例提供的系统架构示意图。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104 和服务器105、106、107和108。网络103用以在终端设备101、102、103和服务器105、106、107、108之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户110可以使用终端设备101、102、103通过网络104与服务器105、 106、107、108交互,以访问各种服务,例如浏览网页、下载数据等。终端设备101、102、103上可以安装有各种客户端应用,例如可以接入统一资源定位符URL云服务的应用,包括但不限于浏览器、安全应用等。
终端设备101、102、103可以是各种电子设备,包括但不限于个人电脑、智能手机、智能电视、平板电脑、个人数字助理、电子书阅读器等等。
服务器105、106、107、108可以是提供各种服务的服务器。服务器可以响应于用户的服务请求而提供服务。可以理解,一个服务器可以提供一种或多种服务,同一种服务也可以由多个服务器来提供。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2为本发明一个示例性的实施例提供的企业详情内链的添加方法的流程图。
如图2所示,该方法包括:
步骤S201:对舆情新闻文本进行企业关键词匹配,并记录匹配到的每个企业关键词以及每个企业关键词在舆情新闻文本中的位置信息,其中,企业关键词包括企业的全称、简称、项目品牌、股票代码、股票名称、投资机构中的一种或多种。
可以通过对舆情新闻文本中的字符串与企业关键词进行匹配,并记录匹配到的企业关键词及其在舆情新闻文本中的位置。可以利用哈希树等其他文本词频统计模型对舆情新闻文本进行企业关键词匹配。
可以通过一种企业关键词进行匹配,也可以通过多种进行匹配。
由于简称、项目品牌等特征的存在,极容易导致非相关数据关联错误,比如「A」其即是「A(中国)有限公司」的项目品牌也是其简称,但其也更可能在舆情中指的是一种水果,为解决关联错误提高关联精准率,我们在匹配公司独有特征的同时,也会对其通用特征进行匹配对比,即可以通过多种关键词进行匹配。比如「A(中国)有限公司」是一家通信科技公司,在浙江省宁波杭州湾新区注册成立,法定代表人是「X」,成立日期是2004-09-07,股东是「美国A集团」,还有公司对应的高管,竞品相关企业等信息进行比对,当舆情中出现上诉特征频率越高,那与其相关联的可能性便越高。
进一步地,对舆情新闻文本进行企业关键词匹配,包括:
利用前缀树对舆情新闻文本进行企业关键词匹配,
其中,前缀树是根据多个企业的企业结构数据预先构建的,每个企业的企业结构数据包括企业的全称、简称、项目品牌、股票代码、股票名称、投资机构中的一种或多种。
前缀树是N叉树的一种特殊形式。通常来说,一个前缀树是用来存储字符串的。前缀树的每一个节点代表一个字符串(前缀)。每一个节点会有多个子节点,通往不同子节点的路径上有着不同的字符。子节点代表的字符串是由节点本身的原始字符串,以及通往该子节点路径上所有的字符组成的。
图3为本发明一个示例性的实施例提供的前缀树数据结构的示意图。如图3所示,通过在节点中标记的值作为该节点对应表示的字符串。例如,我们从根节点开始,选择第二条路径'b',然后选择它的第一个子节点'a',接下来继续选择子节点'd',我们最终会到达叶节点"bad"。节点的值是由从根节点开始,与其经过的路径中的字符按顺序形成的。值得注意的是,根节点表示空字符串。
由于前缀树中节点所有的后代都与该节点相关的字符串有着共同的前缀,因此,通过利用前缀树对舆情新闻文本进行企业关键词匹配,能够迅速、准确的获取到数据匹配结果,进而为用户准确提供相关企业所有舆情。
进一步地,利用前缀树对舆情新闻文本进行企业关键词匹配,包括:
在舆情新闻文本中初始化索引位;
从索引位字开始逐字与前缀树进行匹配,截取第一关键字与第三关键字之间的关键词以作为一个企业关键词,
其中,第一关键字是从索引位字开始到首次出现与前缀树匹配的关键字;第二关键字是从第一关键字开始到首次出现与前缀树不匹配的关键字;第三关键字是位于第二关键字之前且与第二关键字紧邻的关键字。
在第二关键字不是末位字的情况下,重复执行上述操作,以获得其他企业关键词。
步骤S202:基于所记录的企业关键词以及对应的位置信息,在舆情新闻文本中添加对应的企业详情内链。
进一步地,步骤S202,包括:
基于所记录的每个企业关键词以及每个企业关键词对应的位置信息,在舆情新闻文本中为每个企业关键词添加对应的企业详情内链。
进一步地,步骤S202,包括:
从所记录的企业关键词中滤除纯英文的关键词、长度小于等于预设长度的关键词、属于预设白名单中的关键词中的至少之一,并基于记录的位置信息在舆情新闻文本中为剩余的每个企业关键词添加对应的企业详情内链。
对于长度小于等于预设长度的关键词,可以认定为并非企业真正的关键词,因此可以作为滤除对象之一。优选地,预设长度为3个字符。
进一步地,步骤S202,包括:
在舆情新闻文本为正向或者中性舆情新闻的情况下,从所记录的企业关键词中滤除纯英文的关键词、长度小于等于预设长度的关键词中的至少之一,并基于记录的位置信息在舆情新闻文本中为剩余的每个企业关键词添加对应的企业详情内链。
进一步地,步骤S202的过程中,针对目标企业关键词对应的数据标识不唯一的情况,
根据与目标企业关键词对应的多个数据标识,确定与多个数据标识对应的多个企业各自的注册地;以及
根据多个企业各自的注册地,在舆情新闻文本中为目标企业关键词添加对应的企业详情内链。
由于通过关键词匹配会存在匹配出多个企业的情况,可以通过对其注册地所在地区进行判定从而作进一步区分。当关键词匹配出多个结果时判定其地区,优先匹配大陆企业,港台企业排后,且记录关键字在全文坐标,其中,通过记录关键词在全文中的坐标,可以实现关键的精准定位,进而可以做到准确地打内链。
上述实施例,通过对舆情新闻文本进行企业关键词匹配,并记录匹配到的每个企业关键词以及每个企业关键词在舆情新闻文本中的位置信息,以及基于所记录的企业关键词以及对应的位置信息,在舆情新闻文本中添加对应的企业详情内链,一方面,能够迅速、准确的获取到数据匹配结果,且为用户提供清晰的涉及企业,深入用户需求,直白将用户想了解的相关企业所有舆情展现在用户面前,降低了用户的阅读查询成本,提高了用户体验,另一方面当用户阅读舆情时,点击该舆情涉及企业全称、简称或项目品牌时可直接跳转至企业详细,让用户直观了解该舆情涉及企业情况。
图4为本发明一个示例性的实施例提供的企业详情内链的添加装置的结构示意图。
如图4所示,该装置包括:
企业关键词匹配单元401,用于对舆情新闻文本进行企业关键词匹配,并记录匹配到的每个企业关键词以及每个企业关键词在舆情新闻文本中的位置信息,其中,企业关键词包括企业的全称、简称、项目品牌、股票代码、股票名称、投资机构中的一种或多种。
可以通过对舆情新闻文本中的字符串与企业关键词进行匹配,并记录匹配到的企业关键词及其在舆情新闻文本中的位置。可以利用哈希树等其他文本词频统计模型对舆情新闻文本进行企业关键词匹配。
可以通过一种企业关键词进行匹配,也可以通过多种进行匹配。
由于简称、项目品牌等特征的存在,极容易导致非相关数据关联错误,比如「A」其即是「A(中国)有限公司」的项目品牌也是其简称,但其也更可能在舆情中指的是一种水果,为解决关联错误提高关联精准率,我们在匹配公司独有特征的同时,也会对其通用特征进行匹配对比,即可以通过多种关键词进行匹配。比如「A(中国)有限公司」是一家通信科技公司,在浙江省宁波杭州湾新区注册成立,法定代表人是「X」,成立日期是2004-09-07,股东是「美国A集团」,还有公司对应的高管,竞品相关企业等信息进行比对,当舆情中出现上诉特征频率越高,那与其相关联的可能性便越高。
进一步地,对舆情新闻文本进行企业关键词匹配,包括:
利用前缀树对舆情新闻文本进行企业关键词匹配,
其中,前缀树是根据多个企业的企业结构数据预先构建的,每个企业的企业结构数据包括企业的全称、简称、项目品牌、股票代码、股票名称、投资机构中的一种或多种。
前缀树是N叉树的一种特殊形式。通常来说,一个前缀树是用来存储字符串的。前缀树的每一个节点代表一个字符串(前缀)。每一个节点会有多个子节点,通往不同子节点的路径上有着不同的字符。子节点代表的字符串是由节点本身的原始字符串,以及通往该子节点路径上所有的字符组成的。
图3为本发明一个示例性的实施例提供的前缀树数据结构的示意图。如图3所示,通过在节点中标记的值作为该节点对应表示的字符串。例如,我们从根节点开始,选择第二条路径'b',然后选择它的第一个子节点'a',接下来继续选择子节点'd',我们最终会到达叶节点"bad"。节点的值是由从根节点开始,与其经过的路径中的字符按顺序形成的。值得注意的是,根节点表示空字符串。
由于前缀树中节点所有的后代都与该节点相关的字符串有着共同的前缀,因此,通过利用前缀树对舆情新闻文本进行企业关键词匹配,能够迅速、准确的获取到数据匹配结果,进而为用户准确提供相关企业所有舆情。
进一步地,利用前缀树对舆情新闻文本进行企业关键词匹配,包括:
在舆情新闻文本中初始化索引位;
从索引位字开始逐字与前缀树进行匹配,截取第一关键字与第三关键字之间的关键词以作为一个企业关键词,
其中,第一关键字是从索引位字开始到首次出现与前缀树匹配的关键字;第二关键字是从第一关键字开始到首次出现与前缀树不匹配的关键字;第三关键字是位于第二关键字之前且与第二关键字紧邻的关键字。
在第二关键字不是末位字的情况下,重复执行上述操作,以获得其他企业关键词。
企业详情内链添加单元402,用于基于所记录的企业关键词以及对应的位置信息,在舆情新闻文本中添加对应的企业详情内链。
进一步地,企业详情内链添加单元402,还用于:
基于所记录的每个企业关键词以及每个企业关键词对应的位置信息,在舆情新闻文本中为每个企业关键词添加对应的企业详情内链。
进一步地,企业详情内链添加单元402,还用于:
从所记录的企业关键词中滤除纯英文的关键词、长度小于等于预设长度的关键词、属于预设白名单中的关键词中的至少之一,并基于记录的位置信息在舆情新闻文本中为剩余的每个企业关键词添加对应的企业详情内链。
对于长度小于等于预设长度的关键词,可以认定为并非企业真正的关键词,因此可以作为滤除对象之一。优选地,预设长度为3个字符。
进一步地,企业详情内链添加单元402,还用于:
在舆情新闻文本为正向或者中性舆情新闻的情况下,从所记录的企业关键词中滤除纯英文的关键词、长度小于等于预设长度的关键词中的至少之一,并基于记录的位置信息在舆情新闻文本中为剩余的每个企业关键词添加对应的企业详情内链。
进一步地,企业详情内链添加单元402的处理过程中,针对目标企业关键词对应的数据标识不唯一的情况,
根据与目标企业关键词对应的多个数据标识,确定与多个数据标识对应的多个企业各自的注册地;以及
根据多个企业各自的注册地,在舆情新闻文本中为目标企业关键词添加对应的企业详情内链。
由于通过关键词匹配会存在匹配出多个企业的情况,可以通过对其注册地所在地区进行判定从而作进一步区分。当关键词匹配出多个结果时判定其地区,优先匹配大陆企业,港台企业排后,且记录关键字在全文坐标,其中,通过记录关键词在全文中的坐标,可以实现关键的精准定位,进而可以做到准确地打内链。
上述实施例,通过对舆情新闻文本进行企业关键词匹配,并记录匹配到的每个企业关键词以及每个企业关键词在舆情新闻文本中的位置信息,以及基于所记录的企业关键词以及对应的位置信息,在舆情新闻文本中添加对应的企业详情内链,一方面,能够迅速、准确的获取到数据匹配结果,且为用户提供清晰的涉及企业,深入用户需求,直白将用户想了解的相关企业所有舆情展现在用户面前,降低了用户的阅读查询成本,提高了用户体验,另一方面当用户阅读舆情时,点击该舆情涉及企业全称、简称或项目品牌时可直接跳转至企业详细,让用户直观了解该舆情涉及企业情况。
图5为本发明一个示例性的实施例提供的电子设备的框图。如图5所示,电子设备包括一个或多个处理器510和存储器520。
处理器510可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备中的其他组件以执行期望的功能。
存储器520可以包括一个或多个计算机程序产品,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器510可以运行所述程序指令,以实现上文所述的本发明的各个实施例的软件程序的状态数据管理方法以及/或者其他期望的功能。在一个示例中,电子设备还可以包括:输入装置530和输出装置540,这些组件通过总线系统和/ 或其他形式的连接机构(未示出)互连。
此外,该输入装置530还可以包括例如键盘、鼠标等等。
该输出装置540可以向外部输出各种信息。该输出设备540可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图5中仅示出了该电子设备中与本发明有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质除了上述方法和设备以外,本发明的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本发明各种实施例的企业详情内链的添加方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本发明实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本发明的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本发明各种实施例的企业详情内链的添加方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本发明的基本原理,但是,需要指出的是,在本发明中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本发明的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本发明为必须采用上述具体的细节来实现。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
可能以许多方式来实现本发明的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本发明的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。
还需要指出的是,在本发明的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本发明。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本发明的范围。因此,本发明不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本发明的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (10)
1.一种企业详情内链的添加方法,包括:
对舆情新闻文本进行企业关键词匹配,并记录匹配到的每个企业关键词以及所述每个企业关键词在所述舆情新闻文本中的位置信息,其中,所述企业关键词包括企业的全称、简称、项目品牌、股票代码、股票名称、投资机构中的一种或多种;以及
基于所记录的企业关键词以及对应的位置信息,在所述舆情新闻文本中添加对应的企业详情内链。
2.根据权利要求1所述的方法,其中,对舆情新闻文本进行企业关键词匹配,包括:
利用前缀树对所述舆情新闻文本进行企业关键词匹配,
其中,所述前缀树是根据多个企业的企业结构数据预先构建的,每个企业的企业结构数据包括企业的全称、简称、项目品牌、股票代码、股票名称、投资机构中的一种或多种。
3.根据权利要求2所述的方法,其中,利用前缀树对舆情新闻文本进行企业关键词匹配,包括:
在所述舆情新闻文本中初始化索引位;
从索引位字开始逐字与所述前缀树进行匹配,截取第一关键字与第三关键字之间的关键词以作为一个企业关键词,
其中,第一关键字是从所述索引位字开始到首次出现与所述前缀树匹配的关键字;第二关键字是从所述第一关键字开始到首次出现与所述前缀树不匹配的关键字;第三关键字是位于所述第二关键字之前且与所述第二关键字紧邻的关键字。
4.根据权利要求1所述的方法,其中,基于所记录的企业关键词以及对应的位置信息,在所述舆情新闻文本中添加对应的企业详情内链,包括:
基于所记录的每个企业关键词以及所述每个企业关键词对应的位置信息,在所述舆情新闻文本中为所述每个企业关键词添加对应的企业详情内链。
5.根据权利要求1所述的方法,其中,基于所记录的企业关键词以及对应的位置信息,在所述舆情新闻文本中添加对应的企业详情内链,包括:
从所记录的企业关键词中滤除纯英文的关键词、长度小于等于预设长度的关键词、属于预设白名单中的关键词中的至少之一,并基于记录的位置信息在所述舆情新闻文本中为剩余的每个企业关键词添加对应的企业详情内链。
6.根据权利要求1所述的方法,其中,基于所记录的企业关键词以及对应的位置信息,在所述舆情新闻文本中添加对应的企业详情内链,包括:
在所述舆情新闻文本为正向或者中性舆情新闻的情况下,从所记录的企业关键词中滤除纯英文的关键词、长度小于等于预设长度的关键词中的至少之一,并基于记录的位置信息在所述舆情新闻文本中为剩余的每个企业关键词添加对应的企业详情内链。
7.根据权利要求1所述的方法,其中,基于所记录的企业关键词以及对应的位置信息,在所述舆情新闻文本中添加对应的企业详情内链的过程中,针对目标企业关键词对应的数据标识不唯一的情况,
根据与所述目标企业关键词对应的多个数据标识,确定与所述多个数据标识对应的多个企业各自的注册地;以及
根据所述多个企业各自的注册地,在所述舆情新闻文本中为所述目标企业关键词添加对应的企业详情内链。
8.一种企业详情内链的添加装置,包括:
企业关键词匹配单元,用于对舆情新闻文本进行企业关键词匹配,并记录匹配到的每个企业关键词以及所述每个企业关键词在所述舆情新闻文本中的位置信息,其中,所述企业关键词包括企业的全称、简称、项目品牌、股票代码、股票名称、投资机构中的一种或多种;以及
企业详情内链添加单元,用于基于所记录的企业关键词以及对应的位置信息,在所述舆情新闻文本中添加对应的企业详情内链。
9.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序用于执行权利要求1-7任一项所述的方法。
10.一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210386164.7A CN115438145B (zh) | 2022-04-13 | 2022-04-13 | 企业详情内链的添加方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210386164.7A CN115438145B (zh) | 2022-04-13 | 2022-04-13 | 企业详情内链的添加方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115438145A true CN115438145A (zh) | 2022-12-06 |
CN115438145B CN115438145B (zh) | 2024-05-14 |
Family
ID=84240861
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210386164.7A Active CN115438145B (zh) | 2022-04-13 | 2022-04-13 | 企业详情内链的添加方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115438145B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020107882A1 (en) * | 2000-12-12 | 2002-08-08 | Gorelick Richard B. | Automatically inserting relevant hyperlinks into a webpage |
CN102314454A (zh) * | 2010-06-30 | 2012-01-11 | 百度在线网络技术(北京)有限公司 | 自动添加内链的方法及系统 |
US8364662B1 (en) * | 2011-08-09 | 2013-01-29 | Intuit Inc. | System and method for improving a search engine ranking of a website |
CN106776937A (zh) * | 2016-12-01 | 2017-05-31 | 腾讯科技(深圳)有限公司 | 一种确定内链关键词的方法和装置 |
CN108460014A (zh) * | 2018-02-07 | 2018-08-28 | 百度在线网络技术(北京)有限公司 | 企业实体的识别方法、装置、计算机设备及存储介质 |
CN108628907A (zh) * | 2017-03-24 | 2018-10-09 | 北京京东尚科信息技术有限公司 | 一种用于基于Aho-Corasick的Trie树多关键词匹配的方法 |
CN111563212A (zh) * | 2020-04-28 | 2020-08-21 | 北京字节跳动网络技术有限公司 | 一种内链添加方法及装置 |
CN112380464A (zh) * | 2020-11-10 | 2021-02-19 | 中国平安人寿保险股份有限公司 | 一种短链接生成方法以及相关设备 |
CN112527957A (zh) * | 2020-12-08 | 2021-03-19 | 上海大智慧财汇数据科技有限公司 | 一种应用于新闻领域的短文本匹配方法及系统 |
CN112989235A (zh) * | 2021-03-09 | 2021-06-18 | 北京百度网讯科技有限公司 | 基于知识库的内链构建方法、装置、设备和存储介质 |
-
2022
- 2022-04-13 CN CN202210386164.7A patent/CN115438145B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020107882A1 (en) * | 2000-12-12 | 2002-08-08 | Gorelick Richard B. | Automatically inserting relevant hyperlinks into a webpage |
CN102314454A (zh) * | 2010-06-30 | 2012-01-11 | 百度在线网络技术(北京)有限公司 | 自动添加内链的方法及系统 |
US8364662B1 (en) * | 2011-08-09 | 2013-01-29 | Intuit Inc. | System and method for improving a search engine ranking of a website |
CN106776937A (zh) * | 2016-12-01 | 2017-05-31 | 腾讯科技(深圳)有限公司 | 一种确定内链关键词的方法和装置 |
CN108628907A (zh) * | 2017-03-24 | 2018-10-09 | 北京京东尚科信息技术有限公司 | 一种用于基于Aho-Corasick的Trie树多关键词匹配的方法 |
CN108460014A (zh) * | 2018-02-07 | 2018-08-28 | 百度在线网络技术(北京)有限公司 | 企业实体的识别方法、装置、计算机设备及存储介质 |
CN111563212A (zh) * | 2020-04-28 | 2020-08-21 | 北京字节跳动网络技术有限公司 | 一种内链添加方法及装置 |
CN112380464A (zh) * | 2020-11-10 | 2021-02-19 | 中国平安人寿保险股份有限公司 | 一种短链接生成方法以及相关设备 |
CN112527957A (zh) * | 2020-12-08 | 2021-03-19 | 上海大智慧财汇数据科技有限公司 | 一种应用于新闻领域的短文本匹配方法及系统 |
CN112989235A (zh) * | 2021-03-09 | 2021-06-18 | 北京百度网讯科技有限公司 | 基于知识库的内链构建方法、装置、设备和存储介质 |
Non-Patent Citations (2)
Title |
---|
朱钟元;杨莹;薛醒思;詹先银;王家华;范淑娟;刘艳萍;: "基于改进正向最大匹配算法的股票资讯新闻自动标注技术", 宝鸡文理学院学报(自然科学版), no. 01, 21 March 2019 (2019-03-21) * |
杜义华;: "基于泛中文域名的网页关键词超链接功能探讨与实现", 计算机系统应用, no. 10, 30 October 2006 (2006-10-30) * |
Also Published As
Publication number | Publication date |
---|---|
CN115438145B (zh) | 2024-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9304979B2 (en) | Authorized syndicated descriptions of linked web content displayed with links in user-generated content | |
US8429099B1 (en) | Dynamic gazetteers for entity recognition and fact association | |
US20090089278A1 (en) | Techniques for keyword extraction from urls using statistical analysis | |
US20100100815A1 (en) | Email document parsing method and apparatus | |
US8631097B1 (en) | Methods and systems for finding a mobile and non-mobile page pair | |
CN108090351B (zh) | 用于处理请求消息的方法和装置 | |
CN108090104B (zh) | 用于获取网页信息的方法和装置 | |
WO2013170343A1 (en) | Method and system relating to salient content extraction for electronic content | |
CN105843815A (zh) | 页面评论处理方法、装置和浏览器 | |
CN108900554B (zh) | Http协议资产检测方法、系统、设备及计算机介质 | |
US20150012533A1 (en) | Method and client device for accessing webpage | |
CN111881183B (zh) | 企业名称匹配方法和装置、以及存储介质和电子设备 | |
US8359647B1 (en) | System, method and computer program product for rendering data of an on-demand database service safe | |
CN108959294B (zh) | 一种访问搜索引擎的方法和装置 | |
CN104065736A (zh) | 一种url重定向方法、装置及系统 | |
CN112347324A (zh) | 一种文档查询方法、装置、电子设备及存储介质 | |
US9529922B1 (en) | Computer implemented systems and methods for dynamic and heuristically-generated search returns of particular relevance | |
CN109657472B (zh) | Sql注入漏洞检测方法、装置、设备及可读存储介质 | |
CN112579937A (zh) | 一种字符的高亮显示方法及装置 | |
CN113656737A (zh) | 网页内容展示方法、装置、电子设备以及存储介质 | |
CN112000690B (zh) | 解析结构化操作语句的方法和装置 | |
CN108664535B (zh) | 信息输出方法和装置 | |
CN115438145A (zh) | 企业详情内链的添加方法及装置 | |
US11640438B1 (en) | Method and system for automated smart linking within web code | |
CN110825976B (zh) | 网站页面的检测方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230803 Address after: Room 404-405, 504, Building B-17-1, Big data Industrial Park, Kecheng Street, Yannan High tech Zone, Yancheng, Jiangsu Province, 224000 Applicant after: Yancheng Tianyanchawei Technology Co.,Ltd. Address before: 224000 room 501-503, building b-17-1, Xuehai road big data Industrial Park, Kecheng street, Yannan high tech Zone, Yancheng City, Jiangsu Province Applicant before: Yancheng Jindi Technology Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |