CN111339319A - 一种企业名的消歧方法、装置、电子设备及存储介质 - Google Patents
一种企业名的消歧方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111339319A CN111339319A CN202010135839.1A CN202010135839A CN111339319A CN 111339319 A CN111339319 A CN 111339319A CN 202010135839 A CN202010135839 A CN 202010135839A CN 111339319 A CN111339319 A CN 111339319A
- Authority
- CN
- China
- Prior art keywords
- enterprise
- news
- name
- business
- abstract
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 238000003860 storage Methods 0.000 title claims abstract description 21
- 230000015654 memory Effects 0.000 claims description 18
- 238000007477 logistic regression Methods 0.000 claims description 14
- 238000005520 cutting process Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 12
- 230000004931 aggregating effect Effects 0.000 description 9
- 230000008901 benefit Effects 0.000 description 7
- 230000009286 beneficial effect Effects 0.000 description 6
- 238000004590 computer program Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 230000002354 daily effect Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/322—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种企业名的消歧方法、装置、电子设备及存储介质,涉及知识图谱技术领域。具体实现方案为:在预先构建的企业名摘要集合中,获取企业名摘要;其中,企业名摘要集合包括各个企业对应的企业名摘要;在新闻中查找各个企业名摘要;若在新闻中查找到至少一个企业名摘要,则在新闻中获取查找到的各个企业名摘要对应的企业名;若在新闻中获取到的企业名中存在至少一个企业名简称或者别名,则根据新闻的文本特征和预先获取到的各个企业的企业信息,对在新闻中获取到的企业名简称或者别名进行消歧处理。本申请实施例可以高效地对新闻中出现的企业名简称或者别名进行消歧,从而可以快速地将新闻与其相关的企业进行聚合。
Description
技术领域
本申请涉及知识图谱技术领域,进一步涉及实体消歧技术,尤其是一种企业名的消歧方法、装置、电子设备及存储介质。
背景技术
随着互联网2.0时代的到来,互联网资讯已经演化为最主要的信息传播途径,每天都会有着非常大规模的企业相关信息资讯报道,这些报道与企业经营和发展有着千丝万缕的联系,通过获取企业当前最新的新闻资讯可以帮助银行、金融或其他应用方更好的了解企业目前的状况,以此来决定后续的授信、合作等意图。
对于上述问题,最好的解决方案是基于企业知识图谱的方式查询企业相关信息,但目前中国有近8000万家企业处于运营状态,而企业相关的新闻每天的更新量也在百万级别,如何快速、高效精准的获取每个企业对应的新闻资讯是企业知识图谱能够良好运行的重点。目前主要采用实体消歧的解决方案,实体消歧是为了解决自然语言中广泛存在的命名实体的歧义(一词多义)问题,属于词义消歧的一部分,是自然语言处理中非常重要的基础性工作。实体消歧的本质在于一个单词很可能有多个意思,也就是在不同的上下文中所表达的含义可能不太一样。例如,在某个新闻中出现了“苹果”,需要在根据新闻的上下文确定出该“苹果”指的是iphone手机,还是指水果。采用现有的实体消歧的方法,主要问题在于:1)适应性差,大多数情况只能适用于封闭的集合中,很难处理开放域的消歧问题;2)耗时非常长,主要原因是每天的资讯数据量大,且企业数量也非常多。
发明内容
有鉴于此,本申请提出实施例提供一种企业名的消歧方法、装置、电子设备及存储介质,可以高效地对新闻中出现的企业名简称或者别名进行消歧,从而可以快速地将新闻与其相关的企业进行聚合。
第一方面,本申请实施例提供了一种企业名的消歧方法,所述方法包括:
在预先构建的企业名摘要集合中,获取企业名摘要;其中,所述企业名摘要集合包括各个企业对应的企业名摘要;
在预先确定的新闻中查找各个企业名摘要;
若在所述新闻中查找到至少一个企业名摘要,在所述新闻中获取查找到的各个企业名摘要对应的企业名;
若在所述新闻中获取到的企业名中存在至少一个企业名简称或者别名,则根据预先确定出的所述新闻的文本特征和预先在企业百科中获取到的各个企业的企业信息,对在所述新闻中获取到的企业名简称或者别名进行消歧处理。
上述实施例具有如下优点或有益效果:上述实施例通过在新闻中查找企业名摘要,可以在新闻中查找到相关的企业名,还可以根据新闻的文本特征和各个企业的企业信息,对新闻中获取到的企业名简称或者别名进行消歧处理,从而达到高效地对新闻中出现的企业名简称或者别名进行消歧,快速地将新闻与其相关的企业进行聚合目的。而在现有的企业名的消歧方法中,主要采用实体消歧的解决方案,该方案无法高效快速地对新闻中出现的企业名简称或者别名进行消歧。因为本申请采用了在新闻中查找企业名摘要以及预先构建企业百科的技术手段,克服了现有技术中无法高效快速地对新闻中出现的企业名简称或者别名进行消歧的技术问题,进而达到了高效地对新闻中出现的企业名简称或者别名进行消歧,快速地将新闻与其相关的企业进行聚合的技术效果。
在上述实施例中,所述在预先确定的新闻中查找各个企业名摘要,包括:
将全部企业对应的企业名摘要构建成一棵AC树,将所述新闻输入至所述AC树中;
通过所述AC树输出与所述新闻匹配命中的字符串,将所述AC树输出的与所述新闻匹配命中的字符串确定为在所述新闻中查找到的企业名摘要。
上述实施例具有如下优点或有益效果:当新闻长度很长或者新闻中出现企业名摘要较大时,上述实施例采用了基于AC匹配的查询算法,通过上述AC匹配的查询算法,可以快速地在新闻中查找到企业名摘要,从而可以高效地对新闻中出现的企业名简称或者别名进行消歧,快速地将新闻与其相关的企业进行聚合。
在上述实施例中,所述在所述新闻中获取查找到的各个企业名摘要对应的企业名,包括:
按照预先设定的截断字数N,在存在于所述新闻中的各个企业的企业名全称中截断出若干个字符串;其中,N为大于第一预定个数且小于第二预定个数的自然数;
在所述新闻中查找各个字符串对应的企业名,若在所述新闻中查找到至少一个字符串对应的企业名,将在所述新闻中查找到的企业名与频次最高的字符串以关键字和值的形式存入至远程字典服务Redis数据库中;其中,所述企业名包括:企业名全称、企业名简称或者别名。
上述实施例具有如下优点或有益效果:在找出新闻中可能的候选企业名时,可以使用基于实体识别的方法找到所有可能的企业名实体,但是该方法性能较差,且适应不够,难以完成大规模的企业名实体识别,因此可以直接拿企业名在新闻文本中搜索,但是直接使用千万级的企业名在文本中搜索匹配,耗时极大,因此本申请对该过程进行了优化。上述实施例可以快速地在新闻中查找到各个企业的企业名,从而可以高效地对新闻中出现的企业名简称或者别名进行消歧,快速地将新闻与其相关的企业进行聚合。
在上述实施例中,所述根据预先确定出的所述新闻的文本特征和预先在企业百科中获取到的各个企业的企业信息,对在所述新闻中获取到的企业名简称或者别名进行消歧处理,包括:
将所述新闻的文本特征和各个企业的企业信息,以及在所述新闻中获取到的企业名简称或者别名输入至预先训练的预测模型中;
通过所述预测模型输出各个企业名简称或者别名的得分,将得分最高的企业名简称或者别名确定为最终的预测结果。
上述实施例具有如下优点或有益效果:上述实施例可以通过预测模型得到各个企业名简称或者别名的得分,将得分最高的企业名简称或者别名确定为最终的预测结果。这样可以准确地预测出新闻中真实存在的企业,从而可以准确地对企业名简称或者别名进行消歧处理。
在上述实施例中,所述方法还包括:
获取存在于所述新闻中的各个企业的关联特征和全局特征;
将各个企业的关联特征和全局特征输入至逻辑回归算法中,通过所述逻辑回归算法输出各个企业与所述新闻的相关性的概率值;
当各个企业与所述新闻的相关行的概率值大于预设阈值时,判定各个企业与所述新闻相关。
上述实施例具有如下优点或有益效果:上述实施例可以通过逻辑回归算法判别出与新闻真正相关的企业,从而可以准确地对企业名简称或者别名进行消歧处理。
第二方面,本申请还提供了一种企业名的消歧装置,所述装置包括:获取模块、查找模块和消歧模块;其中,
所述获取模块,用于在预先构建的企业名摘要集合中,获取企业名摘要;其中,所述企业名摘要集合包括各个企业对应的企业名摘要;
所述查找模块,用于在预先确定的新闻中查找各个企业名摘要;
所述获取模块,还用于若在所述新闻中查找到至少一个企业名摘要,则在所述新闻中获取查找到的各个企业名摘要对应的企业名;
所述消歧模块,用于若在所述新闻中获取到的企业名中存在至少一个企业名简称或者别名,则根据预先确定出的所述新闻的文本特征和预先在企业百科中获取到的各个企业的企业信息,对在所述新闻中获取到的企业名简称或者别名进行消歧处理。
在上述实施例中,所述查找模块,具体用于将全部企业名摘要构建成一棵AC树,将所述新闻输入至所述AC树中;通过所述AC树输出与所述新闻匹配命中的字符串,将所述AC树输出的与所述新闻匹配命中的字符串确定为在所述新闻中查找到的企业名摘要。
在上述实施例中,所述获取模块,具体用于按照预先设定的截断字数N,在存在于所述新闻中的各个企业的企业名全称中截断出若干个字符串;其中,N为大于第一预定个数且小于第二预定个数的自然数;在所述新闻中查找各个字符串对应的企业名,若在所述新闻中查找到至少一个字符串对应的企业名,将在所述新闻中查找到的企业名与频次最高的字符串以关键字和值的形式存入至Redis数据库中;其中,所述企业名包括:企业名全称、企业名简称或者别名。
在上述实施例中,所述消歧模块,具体用于将所述新闻的文本特征和各个企业的企业信息,以及在所述新闻中获取到的企业名简称或者别名输入至预先训练的预测模型中;通过所述预测模型输出各个企业名简称或者别名的得分,将得分最高的企业名简称或者别名确定为最终的预测结果。
在上述实施例中,所述消歧模块,还用于获取存在于所述新闻中的各个企业的关联特征和全局特征;将各个企业的关联特征和全局特征输入至逻辑回归算法中,通过所述逻辑回归算法输出各个企业与所述新闻的相关性的概率值;当各个企业与所述新闻的相关行的概率值大于预设阈值时,判定各个企业与所述新闻相关。
第三方面,本申请实施例提供了一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本申请任意实施例所述的企业名的消歧方法。
第四方面,本申请实施例提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现本申请任意实施例所述的企业名的消歧方法。
上述申请中的一个实施例具有如下优点或有益效果:本申请提出的企业名的消歧方法、装置、电子设备及存储介质,在预先构建的企业名摘要集合中,获取企业名摘要;其中,企业名摘要集合包括各个企业对应的企业名摘要;然后在预先确定的新闻中查找各个企业名摘要;若在新闻中查找到至少一个企业名摘要,则在新闻中获取查找到的各个企业名摘要对应的企业名;若在新闻中获取到的企业名中存在至少一个企业名简称或者别名,则根据预先确定出的新闻的文本特征和预先在企业百科中获取到的各个企业的企业信息,对在新闻中获取到的企业名简称或者别名进行消歧处理。也就是说,本申请通过在新闻中查找企业名摘要,可以在新闻中查找到相关的企业名,还可以根据新闻的文本特征和各个企业的企业信息,对新闻中获取到的企业名简称或者别名进行消歧处理,从而达到高效地对新闻中出现的企业名简称或者别名进行消歧,快速地将新闻与其相关的企业进行聚合目的。而在现有的企业名的消歧方法中,主要采用实体消歧的解决方案,该方案无法高效快速地对新闻中出现的企业名简称或者别名进行消歧。因为本申请采用了在新闻中查找企业名摘要以及预先构建企业百科的技术手段,克服了现有技术中无法高效快速地对新闻中出现的企业名简称或者别名进行消歧的技术问题,进而达到了高效地对新闻中出现的企业名简称或者别名进行消歧,快速地将新闻与其相关的企业进行聚合的技术效果;并且,本申请实施例的技术方案实现简单方便、便于普及,适用范围更广。
上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是本申请实施例一提供的企业名的消歧方法的流程示意图;
图2是本申请实施例二提供的企业名的消歧方法的流程示意图;
图3是本申请实施例二提供的企业名的消歧系统的结构示意图
图4是本申请实施例三提供的企业名的消歧装置的结构示意图;
图5是用来实现本申请实施例的企业名的消歧方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
实施例一
图1是本申请实施例一提供的企业名的消歧方法的流程示意图,该方法可以由企业名的消歧装置或者电子设备来执行,该装置或者电子设备可以由软件和/或硬件的方式实现,该装置或者电子设备可以集成在任何具有网络通信功能的智能设备中。如图1所示,企业名的消歧方法可以包括以下步骤:
S101、在预先构建的企业名摘要集合中,获取企业名摘要;其中,企业名摘要集合包括各个企业对应的企业名摘要。
在本申请的具体实施例中,电子设备可以在预先构建的企业名摘要集合中,获取企业名摘要;其中,企业名摘要集合包括各个企业对应的企业名摘要。具体地,企业名摘要集合中可以包括各个企业的条目,例如,企业名摘要集合中可以保存近8000万家企业的条目,每个企业的条目中可以记录该企业对应的企业名摘要,例如,“百度科技有限公司”对应的企业名摘要为“百度”。
S102、在预先确定的新闻中查找各个企业名摘要。
在本申请的具体实施例中,电子设备可以在预先确定的新闻中查找各个企业名摘要。具体地,电子设备可以将全部企业名摘要构建成一棵AC树,将新闻输入至AC树中;然后通过AC树可以输出与新闻匹配命中的字符串,所以电子设备可以将AC树输出的与新闻匹配命中的字符串确定为在新闻中查找到的企业名摘要。
具体地,AC树也可以称为AC(Aho-Corasick)算法或者AC自动机,AC算法是一种用于多模式匹配的自动状态机算法。AC算法的主要思想就是构造的有限状态自动机,根据有限状态自动机会根据输入进行模式串匹配。有限状态自动机会随着字符的输入而发生状态转移,转移的状态有如下三种:1、成功状态(success状态),即AC自动机根据输入有能直接到达的状态;2、失败状态(failure状态),即AC自动机根据输入没有直接到达的状态,这时候就会发生跳转,跳转到其他一个路径(比如AC根节点就是其第一个孩子的所有failure状态);3、输出状态(output状态),即成功匹配到一个输入段;以上三个阶段分别对应算法中的三个步骤:1)建立自动机(Pattern tree),简单来说就是根据输入的字符串构造一棵“树”;2)建立failure状态,即在每个叶子节点上加上failure状态(根节点不需要),即标注当前输入串到当前叶子节点时,若不能继续匹配所能跳转的路径;3)比对文本,即成功到达output状态的时候,代表一次匹配成功。
S103、若在新闻中查找到至少一个企业名摘要,则在新闻中获取查找到的各个企业名摘要对应的企业名。
在本申请的具体实施例中,若在新闻中查找到至少一个企业名摘要,电子设备可以在新闻中获取查找到的各个企业名摘要对应的企业名。具体地,电子设备可以按照预先设定的截断字数N,在存在于新闻中的各个企业的企业名全称中截断出若干个字符串;其中,N为大于第一预定个数且小于第二预定个数的自然数;例如,第一预定个数为2,第二预定个数为7;然后在新闻中查找各个字符串对应的企业名,若在新闻中查找到至少一个字符串对应的企业名,则电子设备可以将在新闻中查找到的企业名与频次最高的字符串以关键字和值的形式存入至远程字典服务(Remote Dictionary Server,简称Redis)数据库中;其中,企业名包括:企业名全称、企业名简称或者别名。
具体地,关键字和值即为Key-Value对,简称K-V对,Key是关键字,Value是值,Key-Value的形式是一种以键值对数据进行存储的数据结构,每个键都会对应一个唯一的值,采用K-V对的形式存储数据,具有极高的并发读写性能。
具体地,Redis数据库是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value的数据库,并提供多种语言的应用程序接口(ApplicationProgramming Interface,简称API)。Redis数据库是一个Key-Value存储系统。它支持存储的Value类型相对更多,包括string(字符串)、list(链表)、set(集合)、zset(有序集合)和hash(哈希类型)。
S104、若在新闻中获取到的企业名中存在至少一个企业名简称或者别名,则根据预先确定出的新闻的文本特征和预先在企业百科中获取到的各个企业的企业信息,对在新闻中获取到的企业名简称或者别名进行消歧处理。
在本申请的具体实施例中,若在新闻中获取到的企业名中存在至少一个企业名简称或者别名,则电子设备可以根据预先确定出的新闻的文本特征和预先在企业百科中获取到的各个企业的企业信息,对在新闻中获取到的企业名简称或者别名进行消歧处理。具体地,电子设备可以将新闻的文本特征和各个企业的企业信息,以及在新闻中获取到的企业名简称或者别名输入至预先训练的预测模型中;然后通过预测模型输出各个企业名简称或者别名的得分,将得分最高的企业名简称或者别名确定为最终的预测结果。
本申请实施例提出的企业名的消歧方法,先在预先构建的企业名摘要集合中,获取企业名摘要;其中,企业名摘要集合包括各个企业对应的企业名摘要;然后在预先确定的新闻中查找各个企业名摘要;若在新闻中查找到至少一个企业名摘要,则在新闻中获取查找到的各个企业名摘要对应的企业名;若在新闻中获取到的企业名中存在至少一个企业名简称或者别名,则根据预先确定出的新闻的文本特征和预先在企业百科中获取到的各个企业的企业信息,对在新闻中获取到的企业名简称或者别名进行消歧处理。也就是说,本申请通过在新闻中查找企业名摘要,可以在新闻中查找到相关的企业名,还可以根据新闻的文本特征和各个企业的企业信息,对新闻中获取到的企业名简称或者别名进行消歧处理,从而达到高效地对新闻中出现的企业名简称或者别名进行消歧,快速地将新闻与其相关的企业进行聚合目的。而在现有的企业名的消歧方法中,主要采用实体消歧的解决方案,该方案无法高效快速地对新闻中出现的企业名简称或者别名进行消歧。因为本申请采用了在新闻中查找企业名摘要以及预先构建企业百科的技术手段,克服了现有技术中无法高效快速地对新闻中出现的企业名简称或者别名进行消歧的技术问题,进而达到了高效地对新闻中出现的企业名简称或者别名进行消歧,快速地将新闻与其相关的企业进行聚合的技术效果;并且,本申请实施例的技术方案实现简单方便、便于普及,适用范围更广。
实施例二
图2是本申请实施例二提供的企业名的消歧方法的流程示意图。如图2所示,企业名的消歧方法可以包括以下步骤:
S201、在预先构建的企业名摘要集合中,获取企业名摘要;其中,企业名摘要集合包括各个企业对应的企业名摘要。
在本申请的具体实施例中,电子设备可以在预先构建的企业名摘要集合中,获取企业名摘要;其中,企业名摘要集合包括各个企业对应的企业名摘要。具体地,企业名摘要集合中可以包括各个企业的条目,例如,企业名摘要集合中可以保存近8000万家企业的条目,每个企业的条目中可以记录该企业对应的企业名摘要,例如,“百度科技有限公司”对应的企业名摘要为“百度”。
较佳地,在本申请的具体实施例中,电子设备还可以对实体名进行预处理,在给定的新闻资讯中秒级别发现可能存在的企业名相关信息,这些相关信息可以包括:简称、别名、全称等,由于涉及到的企业数量在千万级,因此对实体名进行预处理是整个系统能够达到工业可应用的关键,为了能够实现秒级甚至毫秒级检测,本申请的预处理流程可以包括以下步骤:1)企业名存储:为了能够遍历所有的企业名,需要将企业名单独存储,本申请可以使用基于关系型数据库管理系统MySQL的存储方式将企业名单进行单独存储;2)企业名相关信息构建:通过分析已有的新闻和各大媒体网站,本申请可以对容易出现企业名简化的企业进行了预处理,这些企业可以包括:a)500强企业:包括世界和国内500强企业,找出它们最常用的简称、别名、股票代码等信息;b)市值过50亿的企业:通过百度百科可以获取这些企业的可能简称、别名;c)各类行业前200龙头企业,共计20个一级行业分类,采用人工方式找出这些企业的可能别名或简称。3)企业名缓存:虽然企业数量在千万级,但每天的新闻涉及的企业数也仅在万级别,因此,需要构建一个缓存列表,用来存储高频次出现的企业名相关信息,这里要求查询速度极快,为了实现该需求,本申请可以采用Redis数据库作为缓存工具,每次查询企业名时先查找Redis数据库,如果在Redis数据库中没有查找到,再访问MySQL,同时将查找到的结果存入Redis数据库,为了避免Redis数据库存储量过大,Redis数据库中超过7天未查询的数据将会失效被清除。
S202、将全部企业对应的企业名摘要构建成一棵AC树,将新闻输入至AC树中。
在本申请的具体实施例中,电子设备可以将全部企业对应的企业名摘要构建成一棵AC树,将新闻输入至AC树中。例如,电子设备可以将12万个企业名摘要构建成一棵AC树,假设新闻中有1000个字,本步骤中可以将新闻中的1000个字逐个输入值该AC树中。
S203、通过AC树输出与新闻匹配命中的字符串,将AC树输出的与新闻匹配命中的字符串确定为在新闻中查找到的企业名摘要。
在本申请的具体实施例中,电子设备可以通过AC树输出与新闻匹配命中的字符串,将AC树输出的与新闻匹配命中的字符串确定为在新闻中查找到的企业名摘要。具体地,对于新闻字数较短且新闻中出现的企业名摘要较小时,可以使用直接匹配查询的方法实现秒级查找;但是当新闻长度较长或者新闻中出现的企业名摘要较大时,使用直接匹配查询的方法就会非常耗时,为了解决该问题,本申请采用了基于AC匹配的查询算法,该查询算法可以包括以下步骤:1)使用所有的企业名摘要构建一颗AC树;2)将待匹配的新闻输入该AC树;3)通过AC树输出匹配命中的字符串;若AC树的输出为企业名简称、别名,则后续需要对这些企业名简称和别名进行消歧处理;4)对于AC树输出的字符串,从Redis数据库中获取其对应的企业名称;5)将这些企业名称再次构建AC树,获取存在于新闻中的企业名称。
S204、若在新闻中查找到至少一个企业名摘要,按照预先设定的截断字数N,在存在于新闻中的各个企业的企业名全称中截断出若干个字符串。
在本申请的具体实施例中,若在新闻中查找到至少一个企业名摘要,电子设备可以按照预先设定的截断字数N,在存在于新闻中的各个企业的企业名全称中截断出若干个字符串。具体地,电子设备在找出新闻中可能的候选企业名时,可以使用基于实体识别的方法找到所有可能的企业名实体,但是该方法性能较差,且适应不够,难以完成大规模的企业名实体识别,这时可以直接拿企业名在新闻文本中搜索,但是直接使用千万级的企业名在文本中搜索匹配,耗时极大,因此必须对该过程进行优化。本申请的优化思路如下:如果一个企业名简称或者别名中的任何一个字符都不出现在该新闻中,那该新闻就不包含该企业的相关信息。基于这个思路,本申请可以对企业名称进行截断,如“百度科技有限公司”可以截断为“百度”或者“度科技”,如果“百度”或者”度科技”都不存在于该新闻中,则该新闻中不包含该企业。企业名摘要的好坏是系统性能的关键,企业名摘要集合要很小,并且每个企业名摘要下面的企业名集合也要很少,这样才能实现最小的查询匹配次数,本申请中对企业名摘要的处理流程可以包括以下步骤:1)按照截断字数N对企业名称从头到尾进行依次截断,N<5,例如,当N=2时,“百度科技有限公司”会截断出“百度、度科、科技、技有、有限、限公、公司”7个字符串;2)对于这些截断出的字符串,可以统计其出现的频次,并将出现频次高于5万以上的字符串进行删除;3)按照各个字符串的长度和频次进行排序;4)对于每个字符串,选择出其对应的企业,如果该企业已经被前面的字符串选择,则在后续的字符串选择时可以被忽略;5)将预先获取到的企业名简称或者别名也加入到企业名摘要集合中;6)将这些企业名摘要及其对应的企业名集合以K-V对的形式存入Redis数据库中;最终可以产出约12.5w个企业名摘要相关字符串,并存入Redis数据库中。
S205、在新闻中查找各个字符串对应的企业名,若在新闻中查找到至少一个字符串对应的企业名,将在新闻中查找到的企业名与频次最高的字符串以关键字和值的形式存入至Redis数据库中。
在本申请的具体实施例中,电子设备可以在新闻中查找各个字符串对应的企业名,若在新闻中查找到至少一个字符串对应的企业名,将在新闻中查找到的企业名与频次最高的字符串以关键字和值的形式存入至Redis数据库中。
S206、若在新闻中获取到的企业名中存在至少一个企业名简称或者别名,则根据预先确定出的新闻的文本特征和预先在企业百科中获取到的各个企业的企业信息,对在新闻中获取到的企业名简称或者别名进行消歧处理。
在本申请的具体实施例中,若在新闻中获取到的企业名中存在至少一个企业名简称或者别名,则电子设备可以根据预先确定出的新闻的文本特征和预先在企业百科中获取到的各个企业的企业信息,对在新闻中获取到的企业名简称或者别名进行消歧处理。具体地,电子设备可以将新闻的文本特征和各个企业的企业信息,以及在新闻中获取到的企业名简称或者别名输入至预先训练的预测模型中;然后通过预测模型输出各个企业名简称或者别名的得分,将得分最高的企业名简称或者别名确定为最终的预测结果。具体地,电子设备可以采用以下方法对企业名简称或者别名进行消歧处理:1)算法选择:该算法主要功能是根据输入的企业名简称以及其对应的多个企业名和企业百科信息,通过新闻文本特征判定哪个企业名才是真实存在于新闻中的,本申请可以使用基于学习排序(Learning toRank,简称LTR)的算法;2)特征选择:本申请使用企业百科中包含的全部特征,如果该特征存在于新闻中,则该特征值为1,存在M次,则特征值为M,否则为0;其中,M为大于1的自然数;3)模型训练:为了确定各类特征的权重,本申请使用了人工标注的5000条数据作为训练样本;4)模型预测:预测时输入企业名简称、企业百科以及新闻即可,将得分最高的企业名简称或者别名作为最终预测结果。
较佳地,在本申请的具体实施例中,电子设备还可以获取存在于新闻中的各个企业的关联特征和全局特征;然后将各个企业的关联特征和全局特征输入至逻辑回归算法中,通过逻辑回归算法输出各个企业与新闻的相关性的概率值;当各个企业与新闻的相关行的概率值大于预设阈值时,判定各个企业与该新闻相关。具体地,电子设备在新闻中查找到企业名之后,虽然这些企业名为新闻中包含的相关企业,但是该新闻是否真的与该企业相关的还需要进一步判别,例如,经常会有媒体使用百度、腾讯或者阿里巴巴作为参照来说明其他企业,这些新闻其实与百度、腾讯或者阿里巴巴并不相关,为此需要引入一个实体判别模型。该实体判别模型的处理过程可以包括以下步骤:1)特征选择:该模型包括两类特征,一种是各个企业的关联特征,该关联特征可以是在企业百科中获取到的特征;另外一种是各个企业的全局特征,如新闻的所属领域、企业名出现的位置、段落、是否在标题中等;2)算法选择:本申请可以使用逻辑回归作为特征学习算法,该算法可以输出为一个相关性概率值,当概率大于0.5时可以判定为企业与新闻相关;3)算法训练:使用预先标注的5000个样本作为训练集;4)相关性预测:预测新闻是否与该企业名相关,若两者真实相关,则将该新闻划定到该企业名下。
较佳地,在本申请具体实施例中,对于在新闻中识别出来的企业名,如果其为企业名的全称,则不需要对企业名的全称进行消歧处理,如果为企业名的简称或者别名,则需要对企业名的简称或者别名进行消歧处理,例如“万达”,可能是“中国万达”或者“大连万达”。为了能够对企业名简称或者别名进行消歧处理,需要构建企业百科作为消歧参照,该企业百科具体可以是一个企业百科库,构建方法可以包括以下步骤:1)企业百科属性筛选:从预先构建的企业图谱中获取企业相关的信息,如:法人代表、子公司名称、百度百科PV、公司董事、成立日期、所属行业、经营范围等;2)属性归一化:将表达较散的属性归一化,如企业的成立日期可以全部归一成为:“某年某月某日”的格式;3)名实体识别:将企业的经营范围等信息从名实体抽取出来,如:房地产、科技等;4)将这些处理好的百科数据存入到之前构建的MySQL中。
图3是本申请实施例二提供的企业名的消歧系统的结构示意图。如图3所示,企业名的消歧系统可以包括:1)实体名预处理模块;2)实体名快速发现模块;3)企业百科构建模块;4)实体消歧算法模块;5)实体相关性判别模块。具体地,1)实体名预处理模块,用于在给定的新闻资讯中秒级别发现可能存在的企业名的相关信息,包括:企业名简称、别名、全称等;该模块可以将企业名和企业名的相关信息分别进行单独存储;同时对容易出现公司企业名简化的公司企业进行了预处理(包括:500强公司企业、市值超过50亿的公司企业和各类行业前200龙头企业),找出它们最常用的简称、别名、股票代码等信息;2)实体名快速发现模块,用于在给定的新闻中找出可能的候选企业名,并将这些可能的候选企业名与各个企业的名称进行关联;该模块涉及到在新闻中找企业名和在新闻中找摘要两部分内容,对于在新闻中找企业名的问题:可以将每个企业的全称截断出若干个字符串,例如,将“百度科技有限公司”截断出“百度、度科、科技、技有、有限、限公、公司”7个字符串;然后在这若干个字符串中选取一个最合适的字符串作为该企业名的摘要;再在新闻中逐个查找每个企业名的摘要,从而可以确定出该新闻与哪些企业的名称相关联;对于在新闻中找摘要的问题:当新闻字数较长或者新闻中出现的企业名摘要较多时,可以将全部企业的摘要生成一颗AC树,将新闻输入至该AC树中,在AC树的输出结果中可以得到该新闻中涉及到的企业名的摘要;3)企业百科构建模块,用于对识别出来的企业名的简称进行消歧处理提供消歧参照,企业百科可以包括:企业属性(例如,法人代表、子公司名称、公司董事、成立时间、所属行业、经营范围等)、属性归一化(例如,成立时间格式统一)和名实体识别(例如,房地产、科技等);4)实体消歧模块,用于根据输入的企业名简称或者别名,以及对应的多个企业名和企业百科信息,通过新闻特征判定哪个企业才是真实存在于新闻中的;例如,将新闻文本特征、企业名简称和企业百科信息输入至预先训练好的预测模型中,通过该模型可以输出每个企业名简称的最终得分,将得分最高的企业名简称作为最终预测结果;5)实体判别模块,用于进一步判别该新闻是否真的与得分最高的企业名简称相关;例如,提取出企业的关联特征和全局特征,将企业的关联特征和全局特征输入至特征学习算法中,通过特征学习算法输出一个相关性概率值,当概率值大于0.5时可以判定为两者真实相关。
企业知识图谱在银行授信、公司合作、股票预测等多个领域都有着非常重要的应用,为了更能够更快的获取企业最新动态,需要从互联网中获取该企业相关的新闻资讯。该过程涉及到千万级的新闻资讯和千万级的企业信息,高效的获取企业相关资讯是保证企业图谱可用的一个重要环节,本申请采用的方法针对一篇新闻可实现毫秒级高准召的企业相关新闻聚合,从而为后续企业相关舆情分析打下坚实的基础。
本申请实施例提出的企业名的消歧方法,先在预先构建的企业名摘要集合中,获取企业名摘要;其中,企业名摘要集合包括各个企业对应的企业名摘要;然后在预先确定的新闻中查找各个企业名摘要;若在新闻中查找到至少一个企业名摘要,则在新闻中获取查找到的各个企业名摘要对应的企业名;若在新闻中获取到的企业名中存在至少一个企业名简称或者别名,则根据预先确定出的新闻的文本特征和预先在企业百科中获取到的各个企业的企业信息,对在新闻中获取到的企业名简称或者别名进行消歧处理。也就是说,本申请通过在新闻中查找企业名摘要,可以在新闻中查找到相关的企业名,还可以根据新闻的文本特征和各个企业的企业信息,对新闻中获取到的企业名简称或者别名进行消歧处理,从而达到高效地对新闻中出现的企业名简称或者别名进行消歧,快速地将新闻与其相关的企业进行聚合目的。而在现有的企业名的消歧方法中,主要采用实体消歧的解决方案,该方案无法高效快速地对新闻中出现的企业名简称或者别名进行消歧。因为本申请采用了在新闻中查找企业名摘要以及预先构建企业百科的技术手段,克服了现有技术中无法高效快速地对新闻中出现的企业名简称或者别名进行消歧的技术问题,进而达到了高效地对新闻中出现的企业名简称或者别名进行消歧,快速地将新闻与其相关的企业进行聚合的技术效果;并且,本申请实施例的技术方案实现简单方便、便于普及,适用范围更广。
实施例三
图4是本申请实施例三提供的企业名的消歧装置的结构示意图。如图4所示,所述装置400包括:获取模块401、查找模块402和消歧模块403;其中,
所述获取模块401,用于在预先构建的企业名摘要集合中,获取企业名摘要;其中,所述企业名摘要集合包括各个企业对应的企业名摘要;
所述查找模块402,用于在预先确定的新闻中查找各个企业名摘要;
所述获取模块401,还用于若在所述新闻中查找到至少一个企业名摘要,则在所述新闻中获取查找到的各个企业名摘要对应的企业名;
所述消歧模块403,用于若在所述新闻中获取到的企业名中存在至少一个企业名简称或者别名,则根据预先确定出的所述新闻的文本特征和预先在企业百科中获取到的各个企业的企业信息,对在所述新闻中获取到的企业名简称或者别名进行消歧处理。
进一步的,所述查找模块402,具体用于将全部企业名摘要构建成一棵AC树,将所述新闻输入至所述AC树中;通过所述AC树输出与所述新闻匹配命中的字符串,将所述AC树输出的与所述新闻匹配命中的字符串确定为在所述新闻中查找到的企业名摘要。
进一步的,所述获取模块401,具体用于按照预先设定的截断字数N,在存在于所述新闻中的各个企业的企业名全称中截断出若干个字符串;其中,N为大于第一预定个数且小于第二预定个数的自然数;在所述新闻中查找各个字符串对应的企业名,若在所述新闻中查找到至少一个字符串对应的企业名,将在所述新闻中查找到的企业名与频次最高的字符串以关键字和值的形式存入至Redis数据库中;其中,所述企业名包括:企业名全称、企业名简称或者别名。
进一步的,所述消歧模块403,具体用于将所述新闻的文本特征和各个企业的企业信息,以及在所述新闻中获取到的企业名简称或者别名输入至预先训练的预测模型中;通过所述预测模型输出各个企业名简称或者别名的得分,将得分最高的企业名简称或者别名确定为最终的预测结果。
进一步的,所述消歧模块403,还用于获取存在于所述新闻中的各个企业的关联特征和全局特征;将各个企业的关联特征和全局特征输入至逻辑回归算法中,通过所述逻辑回归算法输出各个企业与所述新闻的相关性的概率值;当各个企业与所述新闻的相关行的概率值大于预设阈值时,判定各个企业与所述新闻相关。
上述企业名的消歧装置可执行本申请任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请任意实施例提供的企业名的消歧方法。
实施例四
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图5所示,是根据本申请实施例的企业名的消歧方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图5所示,该电子设备包括:一个或多个处理器501、存储器502,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图5中以一个处理器501为例。
存储器502即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的企业名的消歧方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的企业名的消歧方法。
存储器502作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的企业名的消歧方法对应的程序指令/模块(例如,附图4所示的获取模块401、查找模块402和消歧模块403)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的企业名的消歧方法。
存储器502可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据企业名的消歧方法的电子设备的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器502可选包括相对于处理器501远程设置的存储器,这些远程存储器可以通过网络连接至企业名的消歧方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
企业名的消歧方法的电子设备还可以包括:输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接,图5中以通过总线连接为例。
输入装置503可接收输入的数字或字符信息,以及产生与企业名的消歧方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网和区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,先在预先构建的企业名摘要集合中,获取企业名摘要;其中,企业名摘要集合包括各个企业对应的企业名摘要;然后在预先确定的新闻中查找各个企业名摘要;若在新闻中查找到至少一个企业名摘要,则在新闻中获取查找到的各个企业名摘要对应的企业名;若在新闻中获取到的企业名中存在至少一个企业名简称或者别名,则根据预先确定出的新闻的文本特征和预先在企业百科中获取到的各个企业的企业信息,对在新闻中获取到的企业名简称或者别名进行消歧处理。也就是说,本申请通过在新闻中查找企业名摘要,可以在新闻中查找到相关的企业名,还可以根据新闻的文本特征和各个企业的企业信息,对新闻中获取到的企业名简称或者别名进行消歧处理,从而可以达到高效地对新闻中出现的企业名简称或者别名进行消歧,快速地将新闻与其相关的企业进行聚合目的。而在现有的企业名的消歧方法中,主要采用实体消歧的解决方案,该方案无法高效快速地对新闻中出现的企业名简称或者别名进行消歧。因为本申请采用了在新闻中查找企业名摘要以及预先构建企业百科的技术手段,克服了现有技术中无法高效快速地对新闻中出现的企业名简称或者别名进行消歧的技术问题,进而达到了高效地对新闻中出现的企业名简称或者别名进行消歧,快速地将新闻与其相关的企业进行聚合的技术效果;并且,本申请实施例的技术方案实现简单方便、便于普及,适用范围更广。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (12)
1.一种企业名的消歧方法,其特征在于,所述方法包括:
在预先构建的企业名摘要集合中,获取企业名摘要;其中,所述企业名摘要集合包括各个企业对应的企业名摘要;
在预先确定的新闻中查找各个企业名摘要;
若在所述新闻中查找到至少一个企业名摘要,则在所述新闻中获取查找到的各个企业名摘要对应的企业名;
若在所述新闻中获取到的企业名中存在至少一个企业名简称或者别名,则根据预先确定出的所述新闻的文本特征和预先在企业百科中获取到的各个企业的企业信息,对在所述新闻中获取到的企业名简称或者别名进行消歧处理。
2.根据权利要求1所述的方法,其特征在于,所述在预先确定的新闻中查找各个企业名摘要,包括:
将全部企业名摘要构建成一棵AC树,将所述新闻输入至所述AC树中;
通过所述AC树输出与所述新闻匹配命中的字符串,将所述AC树输出的与所述新闻匹配命中的字符串确定为在所述新闻中查找到的企业名摘要。
3.根据权利要求1所述的方法,其特征在于,所述在所述新闻中获取查找到的各个企业名摘要对应的企业名,包括:
按照预先设定的截断字数N,在存在于所述新闻中的各个企业的企业名全称中截断出若干个字符串;其中,N为大于第一预定个数且小于第二预定个数的自然数;
在所述新闻中查找各个字符串对应的企业名,若在所述新闻中查找到至少一个字符串对应的企业名,将在所述新闻中查找到的企业名与频次最高的字符串以关键字和值的形式存入至远程字典服务Redis数据库中;其中,所述企业名包括:企业名全称、企业名简称或者别名。
4.根据权利要求1所述的方法,其特征在于,所述根据预先确定出的所述新闻的文本特征和预先在企业百科中获取到的各个企业的企业信息,对在所述新闻中获取到的企业名简称或者别名进行消歧处理,包括:
将所述新闻的文本特征和各个企业的企业信息,以及在所述新闻中获取到的企业名简称或者别名输入至预先训练的预测模型中;
通过所述预测模型输出各个企业名简称或者别名的得分,将得分最高的企业名简称或者别名确定为最终的预测结果。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取存在于所述新闻中的各个企业的关联特征和全局特征;
将各个企业的关联特征和全局特征输入至逻辑回归算法中,通过所述逻辑回归算法输出各个企业与所述新闻的相关性的概率值;
当各个企业与所述新闻的相关行的概率值大于预设阈值时,判定各个企业与所述新闻相关。
6.一种企业名的消歧的装置,其特征在于,所述装置包括:获取模块、查找模块和消歧模块;其中,
所述获取模块,用于在预先构建的企业名摘要集合中,获取企业名摘要;其中,所述企业名摘要集合包括各个企业对应的企业名摘要;
所述查找模块,用于在预先确定的新闻中查找各个企业名摘要;
所述获取模块,还用于若在所述新闻中查找到至少一个企业名摘要,则在所述新闻中获取查找到的各个企业名摘要对应的企业名;
所述消歧模块,用于若在所述新闻中获取到的企业名中存在至少一个企业名简称或者别名,则根据预先确定出的所述新闻的文本特征和预先在企业百科中获取到的各个企业的企业信息,对在所述新闻中获取到的企业名简称或者别名进行消歧处理。
7.根据权利要求6所述的装置,其特征在于:
所述查找模块,具体用于将全部企业名摘要构建成一棵AC树,将所述新闻输入至所述AC树中;通过所述AC树输出与所述新闻匹配命中的字符串,将所述AC树输出的与所述新闻匹配命中的字符串确定为在所述新闻中查找到的企业名摘要。
8.根据权利要求6所述的装置,其特征在于:
所述获取模块,具体用于按照预先设定的截断字数N,在存在于所述新闻中的各个企业的企业名全称中截断出若干个字符串;其中,N为大于第一预定个数且小于第二预定个数的自然数;在所述新闻中查找各个字符串对应的企业名,若在所述新闻中查找到至少一个字符串对应的企业名,将在所述新闻中查找到的企业名与频次最高的字符串以关键字和值的形式存入至远程字典服务Redis数据库中;其中,所述企业名包括:企业名全称、企业名简称或者别名。
9.根据权利要求6所述的装置,其特征在于:
所述消歧模块,具体用于将所述新闻的文本特征和各个企业的企业信息,以及在所述新闻中获取到的企业名简称或者别名输入至预先训练的预测模型中;通过所述预测模型输出各个企业名简称或者别名的得分,将得分最高的企业名简称或者别名确定为最终的预测结果。
10.根据权利要求6所述的装置,其特征在于:
所述消歧模块,还用于获取存在于所述新闻中的各个企业的关联特征和全局特征;将各个企业的关联特征和全局特征输入至逻辑回归算法中,通过所述逻辑回归算法输出各个企业与所述新闻的相关性的概率值;当各个企业与所述新闻的相关行的概率值大于预设阈值时,判定各个企业与所述新闻相关。
11.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。
12.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010135839.1A CN111339319B (zh) | 2020-03-02 | 2020-03-02 | 一种企业名的消歧方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010135839.1A CN111339319B (zh) | 2020-03-02 | 2020-03-02 | 一种企业名的消歧方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111339319A true CN111339319A (zh) | 2020-06-26 |
CN111339319B CN111339319B (zh) | 2023-08-04 |
Family
ID=71184090
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010135839.1A Active CN111339319B (zh) | 2020-03-02 | 2020-03-02 | 一种企业名的消歧方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111339319B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111899090A (zh) * | 2020-07-14 | 2020-11-06 | 苏宁金融科技(南京)有限公司 | 企业关联风险预警方法及系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170228461A1 (en) * | 2016-02-04 | 2017-08-10 | Gartner, Inc. | Methods and systems for finding and ranking entities in a domain specific system |
CN107577674A (zh) * | 2017-10-09 | 2018-01-12 | 北京神州泰岳软件股份有限公司 | 识别企业名称的方法及装置 |
CN107688564A (zh) * | 2017-08-31 | 2018-02-13 | 平安科技(深圳)有限公司 | 新闻主体企业识别方法、电子设备及计算机可读存储介质 |
CN108460014A (zh) * | 2018-02-07 | 2018-08-28 | 百度在线网络技术(北京)有限公司 | 企业实体的识别方法、装置、计算机设备及存储介质 |
CN109492215A (zh) * | 2018-09-18 | 2019-03-19 | 平安科技(深圳)有限公司 | 新闻实体识别方法、装置、计算机设备和存储介质 |
CN109635285A (zh) * | 2018-11-26 | 2019-04-16 | 平安科技(深圳)有限公司 | 企业全称与简称匹配方法、装置、计算机设备和存储介质 |
WO2019095568A1 (zh) * | 2017-11-17 | 2019-05-23 | 平安科技(深圳)有限公司 | 企业简称生成方法、装置及存储介质 |
CN110020438A (zh) * | 2019-04-15 | 2019-07-16 | 上海冰鉴信息科技有限公司 | 基于序列识别的企业或组织中文名称实体消歧方法和装置 |
CN110427612A (zh) * | 2019-07-02 | 2019-11-08 | 平安科技(深圳)有限公司 | 基于多语言的实体消歧方法、装置、设备和存储介质 |
CN110457680A (zh) * | 2019-07-02 | 2019-11-15 | 平安科技(深圳)有限公司 | 实体消歧方法、装置、计算机设备和存储介质 |
CN110852106A (zh) * | 2019-11-06 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 基于人工智能的命名实体处理方法、装置及电子设备 |
-
2020
- 2020-03-02 CN CN202010135839.1A patent/CN111339319B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170228461A1 (en) * | 2016-02-04 | 2017-08-10 | Gartner, Inc. | Methods and systems for finding and ranking entities in a domain specific system |
CN107688564A (zh) * | 2017-08-31 | 2018-02-13 | 平安科技(深圳)有限公司 | 新闻主体企业识别方法、电子设备及计算机可读存储介质 |
CN107577674A (zh) * | 2017-10-09 | 2018-01-12 | 北京神州泰岳软件股份有限公司 | 识别企业名称的方法及装置 |
WO2019095568A1 (zh) * | 2017-11-17 | 2019-05-23 | 平安科技(深圳)有限公司 | 企业简称生成方法、装置及存储介质 |
CN108460014A (zh) * | 2018-02-07 | 2018-08-28 | 百度在线网络技术(北京)有限公司 | 企业实体的识别方法、装置、计算机设备及存储介质 |
CN109492215A (zh) * | 2018-09-18 | 2019-03-19 | 平安科技(深圳)有限公司 | 新闻实体识别方法、装置、计算机设备和存储介质 |
CN109635285A (zh) * | 2018-11-26 | 2019-04-16 | 平安科技(深圳)有限公司 | 企业全称与简称匹配方法、装置、计算机设备和存储介质 |
CN110020438A (zh) * | 2019-04-15 | 2019-07-16 | 上海冰鉴信息科技有限公司 | 基于序列识别的企业或组织中文名称实体消歧方法和装置 |
CN110427612A (zh) * | 2019-07-02 | 2019-11-08 | 平安科技(深圳)有限公司 | 基于多语言的实体消歧方法、装置、设备和存储介质 |
CN110457680A (zh) * | 2019-07-02 | 2019-11-15 | 平安科技(深圳)有限公司 | 实体消歧方法、装置、计算机设备和存储介质 |
CN110852106A (zh) * | 2019-11-06 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 基于人工智能的命名实体处理方法、装置及电子设备 |
Non-Patent Citations (2)
Title |
---|
HAOJIAN ZHONG等: ""A Similarity Graph Matching Approach for Instance Disambiguation"" * |
王旭阳: ""基于上下文信息的中文命名实体消歧方法研究"" * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111899090A (zh) * | 2020-07-14 | 2020-11-06 | 苏宁金融科技(南京)有限公司 | 企业关联风险预警方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111339319B (zh) | 2023-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10565273B2 (en) | Tenantization of search result ranking | |
CN112507068B (zh) | 文档查询方法、装置、电子设备和存储介质 | |
US10558754B2 (en) | Method and system for automating training of named entity recognition in natural language processing | |
US11709999B2 (en) | Method and apparatus for acquiring POI state information, device and computer storage medium | |
CN111967262A (zh) | 实体标签的确定方法和装置 | |
US11907671B2 (en) | Role labeling method, electronic device and storage medium | |
US20220129448A1 (en) | Intelligent dialogue method and apparatus, and storage medium | |
CN103678576A (zh) | 基于动态语义分析的全文检索系统 | |
WO2022077880A1 (zh) | 模型训练方法、短信审核方法、装置、设备以及存储介质 | |
CN111538815B (zh) | 一种文本查询方法、装置、设备及存储介质 | |
CN110569370B (zh) | 一种知识图谱的构建方法、装置、电子设备及存储介质 | |
CN111831821A (zh) | 文本分类模型的训练样本生成方法、装置和电子设备 | |
US20190005028A1 (en) | Systems, methods, and computer-readable medium for validation of idiomatic expressions | |
CN111783861A (zh) | 数据分类方法、模型训练方法、装置和电子设备 | |
CN112380847A (zh) | 兴趣点处理方法、装置、电子设备及存储介质 | |
CN111460791B (zh) | 文本分类方法、装置、设备以及存储介质 | |
CN112989235A (zh) | 基于知识库的内链构建方法、装置、设备和存储介质 | |
CN112579729A (zh) | 文档质量评价模型的训练方法、装置、电子设备和介质 | |
CN113836316B (zh) | 三元组数据的处理方法、训练方法、装置、设备及介质 | |
CN112597768B (zh) | 文本审核方法、装置、电子设备、存储介质及程序产品 | |
CN114116997A (zh) | 知识问答方法、装置、电子设备及存储介质 | |
CN113609847A (zh) | 信息抽取方法、装置、电子设备及存储介质 | |
CN111339319B (zh) | 一种企业名的消歧方法、装置、电子设备及存储介质 | |
CN113536156A (zh) | 搜索结果排序方法、模型构建方法、装置、设备和介质 | |
CN114661890A (zh) | 一种知识推荐方法、装置、系统及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |