CN111475603A - 企业标识识别方法、装置、计算机设备及存储介质 - Google Patents
企业标识识别方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN111475603A CN111475603A CN201910063094.XA CN201910063094A CN111475603A CN 111475603 A CN111475603 A CN 111475603A CN 201910063094 A CN201910063094 A CN 201910063094A CN 111475603 A CN111475603 A CN 111475603A
- Authority
- CN
- China
- Prior art keywords
- enterprise
- text
- similarity
- recognized
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提出一种企业标识识别方法、装置、计算机设备及存储介质,其中,方法包括:通过根据预设的企业品牌词集和预设的企业属性词集,计算待识别文本与不同企业标识对应的属性信息之间的文本相似度,将待识别文本输入预先训练得到的语义相似度模型,获取待识别文本与不同企业标识对应的属性信息之间的语义相似度,根据文本相似度和语义相似度,确定与待识别文本匹配的目标企业标识。由此,提高了企业标识识别的准确率,而且还提高企业标识识别召回率。
Description
技术领域
本申请涉及互联网技术领域,尤其涉及一种企业标识识别方法、装置、计算机设备及存储介质。
背景技术
日常生活中,用户经常会有搜索企业信息的需求,比如,用户找工作时,通常会采用输入企业名称的方式来获取企业信息,以了解企业情况。搜索引擎根据用户输入的企业名称进行搜索,并向用户返回与企业名称匹配的搜索结果。
相关技术中,搜索引擎根据企业名称进行搜索时,多是基于企业实体识别技术来识别文本中包含的企业实体,根据识别结果返回与用户输入的企业名称相关的文本。
然而,企业实体识别技术具有一定的局限性。由于不同企业可能具有相同的字号,当用户输入企业的字号进行搜索时,容易出现搜索结果与搜索词不匹配的情况,导致搜索召回率和准确率较低。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请提出一种企业标识识别方法、装置及存储介质,用于解决现有技术中当用户对企业的进行搜索时,搜索召回率和准确率比较低的技术问题。
为达上述目的,本申请第一方面实施例提出了一种企业标识识别方法,包括:
根据预设的企业品牌词集和预设的企业属性词集,计算待识别文本与不同企业标识对应的属性信息之间的文本相似度;
将所述待识别文本输入预先训练得到的语义相似度模型,获取所述待识别文本与不同企业标识对应的属性信息之间的语义相似度;
根据所述文本相似度和所述语义相似度,确定与所述待识别文本匹配的目标企业标识。
本申请实施例的企业标识识别方法,通过根据预设的企业品牌词集和预设的企业属性词集,计算待识别文本与不同企业标识对应的属性信息之间的文本相似度,将待识别文本输入预先训练得到的语义相似度模型,获取待识别文本与不同企业标识对应的属性信息之间的语义相似度,根据文本相似度和语义相似度,确定与待识别文本匹配的目标企业标识。由此,提高了企业标识识别的准确率,而且还提高企业标识识别召回率。
为达上述目的,本申请第二方面实施例提出了一种企业标识识别装置,包括:
计算模块,用于根据预设的企业品牌词集和预设的企业属性词集,计算待识别文本与不同企业标识对应的属性信息之间的文本相似度;
获取模块,用于将所述待识别文本输入预先训练得到的语义相似度模型,获取所述待识别文本与不同企业标识对应的属性信息之间的语义相似度;
确定模块,用于根据所述文本相似度和所述语义相似度,确定与所述待识别文本匹配的目标企业标识。
本申请实施例的企业标识识别装置,通过根据预设的企业品牌词集和预设的企业属性词集,计算待识别文本与不同企业标识对应的属性信息之间的文本相似度,将待识别文本输入预先训练得到的语义相似度模型,获取待识别文本与不同企业标识对应的属性信息之间的语义相似度,根据文本相似度和语义相似度,确定与待识别文本匹配的目标企业标识。由此,提高了企业标识识别的准确率,而且还提高企业标识识别召回率。
为达上述目的,本申请第三方面实施例提出了一种计算机设备,包括:处理器和存储器;其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如第一方面实施例所述的企业标识识别方法。
为达上述目的,本申请第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面实施例所述的企业标识识别方法。
为达上述目的,本申请第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时,实现如第一方面实施例所述的企业标识识别方法。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例一所提供的企业标识识别方法的流程示意图;
图2为本申请实施例二所提供的企业标识识别方法的流程示意图;
图3a为本申请实施例三所提供的企业标识识别方法的流程示意图;
图3b为本申请实施例所提供构建成字典树的示例图;
图4为本申请实施例四所提供的企业标识识别方法的流程示意图;
图5为本申请实施例一所提供的企业标识识别装置的结构示意图;
图6为本申请实施例二所提供的企业标识识别装置的结构示意图;
图7为本申请实施例三所提供的企业标识识别装置的结构示意图;
图8为本申请实施例四所提供的企业标识识别装置的结构示意图;
图9为本申请实施例五所提供的企业标识识别装置的结构示意图;以及
图10为本申请实施例所提供的计算机设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的企业标识识别方法、装置、计算机设备及存储介质。
图1为本申请实施例一所提供的企业标识识别方法的流程示意图。
如图1所示,该企业标识识别方法可以包括以下步骤:
步骤101,根据预设的企业品牌词集和预设的企业属性词集,计算待识别文本与不同企业标识对应的属性信息之间的文本相似度。
其中,需要预先生成预设的企业品牌词集,作为一种可能实现的方式,如图2所示,包括:
步骤201,利用预先训练的条件随机场模型从多个企业名称中提取出对应的企业字号。
具体地,企业品牌词可以包括企业字号、企业商标、企业品牌中的一种或者多种,其中,企业字号可以从企业名称中进行抽取。比如,
可以理解的是,企业名称通常都是具有特定的模式,组成结构也常常包括地域、企业字号、产品或者行业四个部分,其中,企业字号是用于区分企业的最显著的标志,具有独占性、表意性等特点。不同的企业名称间除企业字号之外的部分一般具有较大的相似性,本申请实施例考虑了企业名称的这种共性,可以通过人工标注的方式对于企业名称中的各个部分进行标注标签,如:地名、行业、组织形式等,将其作为条件随机场模型的训练集。
本申请实施中的条件随机场模型可以同时将中心词的前M个词和后N个词当成该中心词的上下文信息,从而该中心词的预测标签是由上下文信息同时作用的结果,这种方式可以更好的利用上下文的关系,并且也更符合企业名称识别的实际情况。
举例而言,根据企业名称结构的特性,设置长度为5的上下文观察窗口,训练集仅采用词语标签信息,待标注词的标注结果是由其所在位置前后词语的标签信息共同决定的,通过词语标签信息构建条件随机场模型具有很好的泛化效果,在实际实用时,具有很高的召回能力,最后条件随机场可以预测得到的企业名称各部分的标签信息,由此可以很容易提取出企业字号。
步骤202,从多个企业信用数据中获取企业商标和企业品牌。
步骤203,根据企业字号、企业商标和企业品牌生成预设的企业品牌词集。
其中,每一个企业都有其对应的企业信用数据,可以从企业信用数据中企业商标和企业品牌,最后根据企业字号、企业商标和企业品牌生成预设的企业品牌词集。
为了进一步提高预设的企业品牌词集的准确性,从而提高企业标识识别的准确性,提高企业标识召回率,可以通过分析大量企业字号、企业商标和企业品牌,如果识别到具有企业标示能力差和地域性的词语,可以采用地域过滤和品牌独占性两种方法进行清洗,其中,品牌独占性是指企业的品牌词需要具有一定的企业标示能力,以及将出现频率过高的泛化词从企业品牌词集中进行过滤。
还可以理解的是,需要预先生成预设的企业属性词集,作为一种可能实现的方式,如图3a所示,包括:
步骤301,利用爬虫工具从网页内容中获取企业标识对应的属性信息,和/或,从企业网站对应的搜索词中提取与企业标识对应的属性信息。
步骤302,根据企业标识与对应的属性信息,生成预设的企业属性词集。
具体地,属性信息指的是与企业行业、产品等具有一定关系的词语,一般聚集在企业网站、企业百科数据等具有企业描述性文本中,以及网民的检索数据中,如:百度点击日志。
因此,可以通过从网页内容中获取企业标识对应的属性信息,和/或,从企业网站对应的搜索词中提取与企业标识对应的属性信息,可以根据实际应用需要进行选择。
具体地,企业描述类网站中一般具有关于企业的行业性质、产品类别等信息,本申请实施例中,在挖掘企业标识对应的属性信息时由于并非所有企业都具有企业网站,所以可以引入了企业百科、1688和顺企网等平台类网站增加企业的覆盖。
因此,可以通过爬虫工具爬取企业网站或者平台类网站的描述信息之后,依次抽取企业的关键信息、利用NLP(Natural Language Processing,自然语言处理)分词工具进行分词、属性词过滤等步骤,最后获取与企业标识对应的属性信息。
需要说明的是,为了进一步提高企业标识识别的准确性,基于从企业网站得到属性信息,虽然已经很大程度上与企业标识有一定的联系,但是仍然会存在泛化词,如:电话、产品、中心、的等。因此可以对获取的企业标识对应的属性信息进行过滤,比如首先通过属性词过滤、文本中企业地域确认、手机号等固定串的过滤,其次通过获取京东、亚马逊等电商平台的产品类目,将产品类目与企业标识对应的属性信息做相似度计算,保留相似度比较高的词语作为企业标识对应的属性信息。
需要说明的是,用户在通过搜索引擎进行检索过程中,具有针对意向站点的点击记录,本申请实施例可以通过选择对企业网站对应的搜索词中提取与企业标识对应的属性信息。
具体地,通过权重的方式筛选出能够表征企业的搜索词,将其存入企业的搜索词集合中,其中权重计算公式如下:W(query|url)=P(query|url)*P(url|query)其中,P(query|url)表示搜索结果中出现某url(统一资源定位符)时,检索请求是某query(搜索词)的概率;P(url|query)表示检索请求是某query时,检索到某url的概率;W(query|url)表示给定某检索query与某url的相关度。
通过企业的搜索词筛选,大多企业都可以获取一批相关性比较高的搜索词,本申请实施例从企业相关搜索词中提取与企业标识对应的属性信息,更具体地,将搜索词进行分词,由于分词结果过于细,很多企业产品词被分隔开,在此利用N-gram对于分词结果进行组合,接着对于N-gram的组词结果进行词性标注,由于N-gram的组词结果存在数据噪音,需要进一步过滤,可以通过规则与统计相结合的方式,首先采用词性过滤出助词、形容词等描述类的词语、通过设置高频和低频的阈值分别过滤出区别性比较低和组合几率低词语;然后由于左邻接熵可以剔除左侧灵活度比较低词语,右邻接熵可以剔除右侧灵活度比较低词语,因此引入左右邻接熵剔除灵活度低的词语,以及利用互信息剔除词语内部聚合度比较低的词语,通过二者结合就可以剔除错误组合的文本串,最后以企业维度计算每个词语的词项频率、逆文档频率权重,通过权重过滤企业相关性高的词语生成预设的企业属性词集。其中,左右邻接熵的公式为:其中,p(ai|w)表示在w左侧出现的概率,其中ai和w都代表词语,如“检索”在“结果”左侧出现的概率;p(aj|w)表示aj在w右侧出现的概率,其中aj和w都代表词语;互信息公式为: 其中,p(ab)表示在大量文本中,ab同时出现的概率,p(a)和p(b)为a和b分别出现的概率,a、b分别代表词语;计算每个词语的词项频率、逆文档频率权重的公式为:tfidf(w)=tfwDi*idfwDi,其中,w表示词语,Di表示文档i,tfw,Di表示词语w在D文档下的文本频率;idfw表示词语w在整个文本中的逆文档频率。
在生成预设的企业品牌词集和预设的企业属性词集后,可以根据预设的企业品牌词集和预设的企业属性词集,计算待识别文本与不同企业标识对应的属性信息之间的文本相似度,作为一种可能实现的方式,根据预设的企业品牌词集构建字典树,根据字典树确定待识别文本包含的至少一个候选企业标识,根据预设的企业属性词集获取与至少一个候选企业标识对应的属性信息,计算待识别文本与至少一个候选企业标识对应的属性信息之间的属性相似度,根据属性相似度确定文本相似度。
具体地,将预设的企业品牌词集构建成为字典树,用于待识别文本中出现的企业字号、企业商标和企业品牌中的一种或者多种,此时可能会得到同企业字号、企业商标和企业品牌对应的多家企业也就是存在多个候选企业标识,接着利用预设的企业属性词集获取候选企业标识对应的属性信息。
举例而言,企业字号为:百度;企业商标为:百度云;企业品牌为:百度贴吧,将其对应的预设的企业品牌词集构建成为字典树如图3b所示。
为了更好的计算候选企业标识对应的属性信息与待识别文本的相似度,作为一种示例,可以将候选企业标识对应的属性信息利用word2vec转化成为词向量得到候选企业标识对应的属性词向量与待识别文本中出品牌词之外的上下文的词向量进行相似度计算,获取待识别文本与至少一个候选企业标识对应的属性信息之间的属性相似度。
可以理解的是,可以直接将该属性相似度作为文本相似度。为了进一步提高准确率,地域对于企业归属影响很大,因此可以根据至少一个候选企业标识对应的企业地址,计算待识别文本与至少一个候选企业标识对应的企业地址之间的地域相似度,对属性相似度和地域相似度进行加权求和,得到文本相似度。
步骤102,将待识别文本输入预先训练得到的语义相似度模型,获取待识别文本与不同企业标识对应的属性信息之间的语义相似度。
其中,需要预先生成语义相似度模型,作为一种可能实现方式,如图4所示,包括:
步骤401,获取历史搜索词。
步骤402,将历史搜索词、预设的企业品牌词集和预设的企业属性词集作为训练样本,对深度神经网络模型进行训练,得到语义相似度模型。
具体地,通过历史搜索词、预设的企业品牌词集和预设的企业属性词集,用深度神经网络模型把历史搜索词、预设的企业品牌词集和预设的企业属性词表达成低纬语义向量,并通过余弦距离来计算两个语义向量之间的距离,最终训练出语义相似度模型。
由此,利用该语义相似度模型预测待识别文本及待识别文本中出现品牌词对应的语义相似度。
步骤103,根据文本相似度和语义相似度,确定与待识别文本匹配的目标企业标识。
具体地,可以根据实际应用需要,赋予文本相似度和语义相似度一定的权重,通过权重计算将文本相似度和语义相似度的结合起来,最后根据结合计算的相似度值对多个企业标识进行排序,确定目标企业标识。
本实施例的企业标识识别方法,通过根据预设的企业品牌词集和预设的企业属性词集,计算待识别文本与不同企业标识对应的属性信息之间的文本相似度,将待识别文本输入预先训练得到的语义相似度模型,获取待识别文本与不同企业标识对应的属性信息之间的语义相似度,根据文本相似度和语义相似度,确定与待识别文本匹配的目标企业标识。由此,提高了企业标识识别的准确率,而且还提高企业标识识别召回率。
为了实现上述实施例,本申请还提出一种企业标识识别装置。
图5为本申请实施例一所提供的企业标识识别装置的结构示意图。
如图5所示,该企业标识识别装置50包括:计算模块510、获取模块520和确定模块530。其中,
计算模块510,用于根据预设的企业品牌词集和预设的企业属性词集,计算待识别文本与不同企业标识对应的属性信息之间的文本相似度。
获取模块520,用于将待识别文本输入预先训练得到的语义相似度模型,获取待识别文本与不同企业标识对应的属性信息之间的语义相似度。
确定模块530,用于根据文本相似度和语义相似度,确定与待识别文本匹配的目标企业标识。
进一步地,在本申请实施例一种可能的实现方式中,如图6所示,在如图5所示实施例的基础上,计算模块510包括:
构建单元5101,用于根据预设的企业品牌词集构建字典树。
匹配单元5102,用于根据字典树确定待识别文本包含的至少一个候选企业标识。
第一计算单元5103,用于根据预设的企业属性词集获取与至少一个候选企业标识对应的属性信息,计算待识别文本与至少一个候选企业标识对应的属性信息之间的属性相似度。
确定单元5104,用于根据属性相似度确定文本相似度。
在本申请实施例一种可能的实现方式中,如图7所示,在如图6所示实施例的基础上,计算模块510还包括:
第二计算单元5105,用于根据至少一个候选企业标识对应的企业地址,计算待识别文本与至少一个候选企业标识对应的企业地址之间的地域相似度。
确定单元5104,还用于:对属性相似度和地域相似度进行加权求和,得到文本相似度。
在本申请实施例一种可能的实现方式中,如图8所示,在如图5所示实施例的基础上,所述装置,还包括:模型训练模块550。
其中,模型训练模块550用于:获取历史搜索词;将历史搜索词、预设的企业品牌词集和预设的企业属性词集作为训练样本,对深度神经网络模型进行训练,得到语义相似度模型。
在本申请实施例一种可能的实现方式中,如图9所示,在如图5所示实施例的基础上,所述装置,还包括:信息挖掘模块560。
其中,信息挖掘模块560,用于:利用预先训练的条件随机场模型从多个企业名称中提取出对应的企业字号;从多个企业信用数据中获取企业商标和企业品牌;根据企业字号、企业商标和企业品牌生成预设的企业品牌词集。
在本申请实施例一种可能的实现方式中,信息挖掘模块560,还用于:利用爬虫工具从网页内容中获取企业标识对应的属性信息,和/或,从企业网站对应的搜索词中提取与企业标识对应的属性信息;根据企业标识与对应的属性信息,生成预设的企业属性词集。
需要说明的是,前述对企业标识识别方法实施例的解释说明也适用于该实施例的企业标识识别装置,其实现原理类似,此处不再赘述。
本申请实施例的企业标识识别装置,通过根据预设的企业品牌词集和预设的企业属性词集,计算待识别文本与不同企业标识对应的属性信息之间的文本相似度,将待识别文本输入预先训练得到的语义相似度模型,获取待识别文本与不同企业标识对应的属性信息之间的语义相似度,根据文本相似度和语义相似度,确定与待识别文本匹配的目标企业标识。由此,提高了企业标识识别的准确率,而且还提高企业标识识别召回率。
为了实现上述实施例,本申请还提出一种计算机设备,包括:处理器和存储器。其中,处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于实现如前述实施例所述的企业标识识别方法。
图10为本申请实施例所提供的计算机设备的结构示意图,示出了适于用来实现本申请实施方式的示例性计算机设备90的框图。图10显示的计算机设备90仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图10所示,计算机设备90以通用计算机设备的形式表现。计算机设备90的组件可以包括但不限于:一个或者多个处理器或者处理单元906,系统存储器910,连接不同系统组件(包括系统存储器910和处理单元906)的总线908。
总线908表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
计算机设备90典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备90访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器910可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)911和/或高速缓存存储器912。计算机设备90可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统913可以用于读写不可移动的、非易失性磁介质(图10未显示,通常称为“硬盘驱动器”)。尽管图10中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc ReadOnly Memory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线908相连。系统存储器910可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。
具有一组(至少一个)程序模块9140的程序/实用工具914,可以存储在例如系统存储器910中,这样的程序模块9140包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块9140通常执行本申请所描述的实施例中的功能和/或方法。
计算机设备90也可以与一个或多个外部设备10(例如键盘、指向设备、显示器100等)通信,还可与一个或者多个使得用户能与该终端设备90交互的设备通信,和/或与使得该计算机设备90能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口902进行。并且,计算机设备90还可以通过网络适配器900与一个或者多个网络(例如局域网(Local Area Network;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图10所示,网络适配器900通过总线908与计算机设备90的其它模块通信。应当明白,尽管图10中未示出,可以结合计算机设备90使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元906通过运行存储在系统存储器910中的程序,从而执行各种功能应用以及数据处理,例如实现前述实施例中提及的企业标识识别方法。
为了实现上述实施例,本申请还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时,实现如前述实施例所述的企业标识识别方法。
为了实现上述实施例,本申请还提出一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时,实现如前述实施例所述的企业标识识别方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (14)
1.一种企业标识识别方法,其特征在于,包括:
根据预设的企业品牌词集和预设的企业属性词集,计算待识别文本与不同企业标识对应的属性信息之间的文本相似度;
将所述待识别文本输入预先训练得到的语义相似度模型,获取所述待识别文本与不同企业标识对应的属性信息之间的语义相似度;
根据所述文本相似度和所述语义相似度,确定与所述待识别文本匹配的目标企业标识。
2.如权利要求1所述的方法,其特征在于,所述根据预设的企业品牌词集和预设的企业属性词集,计算待识别文本与不同企业标识对应的属性信息之间的文本相似度,包括:
根据所述预设的企业品牌词集构建字典树;
根据所述字典树确定所述待识别文本包含的至少一个候选企业标识;
根据所述预设的企业属性词集获取与所述至少一个候选企业标识对应的属性信息,计算所述待识别文本与所述至少一个候选企业标识对应的属性信息之间的属性相似度;
根据所述属性相似度确定所述文本相似度。
3.如权利要求2所述的方法,其特征在于,在所述根据所述字典树确定所述待识别文本包含的至少一个候选企业标识之后,还包括:
根据所述至少一个候选企业标识对应的企业地址,计算所述待识别文本与所述至少一个候选企业标识对应的企业地址之间的地域相似度;
所述根据所述属性相似度确定所述文本相似度,包括:
对所述属性相似度和所述地域相似度进行加权求和,得到所述文本相似度。
4.如权利要求1所述的方法,其特征在于,在所述将所述待识别文本输入预先训练得到的语义相似度模型,获取所述待识别文本与不同企业标识对应的属性信息之间的语义相似度之前,还包括:
获取历史搜索词;
将所述历史搜索词、所述预设的企业品牌词集和所述预设的企业属性词集作为训练样本,对深度神经网络模型进行训练,得到所述语义相似度模型。
5.如权利要求1-4任一项所述的方法,其特征在于,在所述根据预设的企业品牌词集和预设的企业属性词集,计算待识别文本与不同企业标识对应的属性信息之间的文本相似度之前,还包括:
利用预先训练的条件随机场模型从多个企业名称中提取出对应的企业字号;
从多个企业信用数据中获取企业商标和企业品牌;
根据所述企业字号、所述企业商标和所述企业品牌生成所述预设的企业品牌词集。
6.如权利要求1所述的方法,其特征在于,在所述根据预设的企业品牌词集和预设的企业属性词集,计算待识别文本与不同企业标识对应的属性信息之间的文本相似度之前,还包括:
利用爬虫工具从网页内容中获取企业标识对应的属性信息,和/或,从企业网站对应的搜索词中提取与企业标识对应的属性信息;
根据所述企业标识与对应的属性信息,生成所述预设的企业属性词集。
7.一种企业标识识别装置,其特征在于,包括:
计算模块,用于根据预设的企业品牌词集和预设的企业属性词集,计算待识别文本与不同企业标识对应的属性信息之间的文本相似度;
获取模块,用于将所述待识别文本输入预先训练得到的语义相似度模型,获取所述待识别文本与不同企业标识对应的属性信息之间的语义相似度;
确定模块,用于根据所述文本相似度和所述语义相似度,确定与所述待识别文本匹配的目标企业标识。
8.如权利要求7所述的装置,其特征在于,所述计算模块,包括:
构建单元,用于根据所述预设的企业品牌词集构建字典树;
匹配单元,用于根据所述字典树确定所述待识别文本包含的至少一个候选企业标识;
第一计算单元,用于根据所述预设的企业属性词集获取与所述至少一个候选企业标识对应的属性信息,计算所述待识别文本与所述至少一个候选企业标识对应的属性信息之间的属性相似度;
确定单元,用于根据所述属性相似度确定所述文本相似度。
9.如权利要求8所述的装置,其特征在于,所述计算模块,还包括:
第二计算单元,用于根据所述至少一个候选企业标识对应的企业地址,计算所述待识别文本与所述至少一个候选企业标识对应的企业地址之间的地域相似度;
所述确定单元,还用于:
对所述属性相似度和所述地域相似度进行加权求和,得到所述文本相似度。
10.如权利要求1所述的装置,其特征在于,所述装置还包括:模型训练模块;所述模型训练模块用于:
获取历史搜索词;
将所述历史搜索词、所述预设的企业品牌词集和所述预设的企业属性词集作为训练样本,对深度神经网络模型进行训练,得到所述语义相似度模型。
11.如权利要求7-10任一项所述的装置,其特征在于,所述装置还包括:信息挖掘模块,所述信息挖掘模块,用于:
利用预先训练的条件随机场模型从多个企业名称中提取出对应的企业字号;
从多个企业信用数据中获取企业商标和企业品牌;
根据所述企业字号、所述企业商标和所述企业品牌生成所述预设的企业品牌词集。
12.如权利要求11所述的装置,其特征在于,所述信息挖掘模块,还用于:
利用爬虫工具从网页内容中获取企业标识对应的属性信息,和/或,从企业网站对应的搜索词中提取与企业标识对应的属性信息;
根据所述企业标识与对应的所述属性信息,生成所述预设的企业属性词集。
13.一种计算机设备,其特征在于,包括处理器和存储器;
其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如权利要求1-6中任一项所述的企业标识识别方法。
14.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一项所述的企业标识识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910063094.XA CN111475603B (zh) | 2019-01-23 | 2019-01-23 | 企业标识识别方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910063094.XA CN111475603B (zh) | 2019-01-23 | 2019-01-23 | 企业标识识别方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111475603A true CN111475603A (zh) | 2020-07-31 |
CN111475603B CN111475603B (zh) | 2023-07-04 |
Family
ID=71743281
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910063094.XA Active CN111475603B (zh) | 2019-01-23 | 2019-01-23 | 企业标识识别方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111475603B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112215288A (zh) * | 2020-10-13 | 2021-01-12 | 中国光大银行股份有限公司 | 目标企业的类别确定方法及装置、存储介质、电子装置 |
CN112364635A (zh) * | 2020-11-30 | 2021-02-12 | 中国银行股份有限公司 | 企业名称查重方法及装置 |
CN112784015A (zh) * | 2021-01-25 | 2021-05-11 | 北京金堤科技有限公司 | 信息识别方法和装置、设备、介质和程序 |
CN113128196A (zh) * | 2021-05-19 | 2021-07-16 | 腾讯科技(深圳)有限公司 | 文本信息处理方法及其装置、存储介质 |
CN113268987A (zh) * | 2021-05-26 | 2021-08-17 | 北京百度网讯科技有限公司 | 一种实体名称识别方法、装置、电子设备和存储介质 |
CN113609853A (zh) * | 2021-07-30 | 2021-11-05 | 支付宝(杭州)信息技术有限公司 | 一种企业主体属性识别方法、装置及设备 |
CN113807429A (zh) * | 2021-09-14 | 2021-12-17 | 企查查科技有限公司 | 企业的分类方法、装置、计算机设备和存储介质 |
CN115239214A (zh) * | 2022-09-23 | 2022-10-25 | 建信金融科技有限责任公司 | 企业的评估处理方法、装置及电子设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104298776A (zh) * | 2014-11-04 | 2015-01-21 | 苏州大学 | 基于lda模型的搜索引擎结果优化系统 |
CN105518668A (zh) * | 2013-09-04 | 2016-04-20 | 沙祖拉公司 | 基于内容的图像检索 |
CN108009228A (zh) * | 2017-11-27 | 2018-05-08 | 咪咕互动娱乐有限公司 | 一种内容标签的设置方法、装置及存储介质 |
CN108090047A (zh) * | 2018-01-10 | 2018-05-29 | 华南师范大学 | 一种文本相似度的确定方法及设备 |
CN108256009A (zh) * | 2018-01-03 | 2018-07-06 | 国网江苏省电力有限公司电力科学研究院 | 一种提高电力智能应答机器人回答准确率的方法 |
CN108416028A (zh) * | 2018-03-09 | 2018-08-17 | 北京百度网讯科技有限公司 | 一种搜索内容资源的方法、装置及服务器 |
CN108717470A (zh) * | 2018-06-14 | 2018-10-30 | 南京航空航天大学 | 一种具有高准确度的代码片段推荐方法 |
CN109165291A (zh) * | 2018-06-29 | 2019-01-08 | 厦门快商通信息技术有限公司 | 一种文本匹配方法及电子设备 |
CN109190117A (zh) * | 2018-08-10 | 2019-01-11 | 中国船舶重工集团公司第七〇九研究所 | 一种基于词向量的短文本语义相似度计算方法 |
-
2019
- 2019-01-23 CN CN201910063094.XA patent/CN111475603B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105518668A (zh) * | 2013-09-04 | 2016-04-20 | 沙祖拉公司 | 基于内容的图像检索 |
CN104298776A (zh) * | 2014-11-04 | 2015-01-21 | 苏州大学 | 基于lda模型的搜索引擎结果优化系统 |
CN108009228A (zh) * | 2017-11-27 | 2018-05-08 | 咪咕互动娱乐有限公司 | 一种内容标签的设置方法、装置及存储介质 |
CN108256009A (zh) * | 2018-01-03 | 2018-07-06 | 国网江苏省电力有限公司电力科学研究院 | 一种提高电力智能应答机器人回答准确率的方法 |
CN108090047A (zh) * | 2018-01-10 | 2018-05-29 | 华南师范大学 | 一种文本相似度的确定方法及设备 |
CN108416028A (zh) * | 2018-03-09 | 2018-08-17 | 北京百度网讯科技有限公司 | 一种搜索内容资源的方法、装置及服务器 |
CN108717470A (zh) * | 2018-06-14 | 2018-10-30 | 南京航空航天大学 | 一种具有高准确度的代码片段推荐方法 |
CN109165291A (zh) * | 2018-06-29 | 2019-01-08 | 厦门快商通信息技术有限公司 | 一种文本匹配方法及电子设备 |
CN109190117A (zh) * | 2018-08-10 | 2019-01-11 | 中国船舶重工集团公司第七〇九研究所 | 一种基于词向量的短文本语义相似度计算方法 |
Non-Patent Citations (1)
Title |
---|
郑小波: "基于语义的主题搜索引擎研究" * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112215288A (zh) * | 2020-10-13 | 2021-01-12 | 中国光大银行股份有限公司 | 目标企业的类别确定方法及装置、存储介质、电子装置 |
CN112215288B (zh) * | 2020-10-13 | 2024-04-30 | 中国光大银行股份有限公司 | 目标企业的类别确定方法及装置、存储介质、电子装置 |
CN112364635B (zh) * | 2020-11-30 | 2023-11-21 | 中国银行股份有限公司 | 企业名称查重方法及装置 |
CN112364635A (zh) * | 2020-11-30 | 2021-02-12 | 中国银行股份有限公司 | 企业名称查重方法及装置 |
CN112784015A (zh) * | 2021-01-25 | 2021-05-11 | 北京金堤科技有限公司 | 信息识别方法和装置、设备、介质和程序 |
CN112784015B (zh) * | 2021-01-25 | 2024-03-12 | 北京金堤科技有限公司 | 信息识别方法和装置、设备、介质和程序 |
CN113128196A (zh) * | 2021-05-19 | 2021-07-16 | 腾讯科技(深圳)有限公司 | 文本信息处理方法及其装置、存储介质 |
CN113268987B (zh) * | 2021-05-26 | 2023-08-11 | 北京百度网讯科技有限公司 | 一种实体名称识别方法、装置、电子设备和存储介质 |
CN113268987A (zh) * | 2021-05-26 | 2021-08-17 | 北京百度网讯科技有限公司 | 一种实体名称识别方法、装置、电子设备和存储介质 |
CN113609853A (zh) * | 2021-07-30 | 2021-11-05 | 支付宝(杭州)信息技术有限公司 | 一种企业主体属性识别方法、装置及设备 |
CN113807429A (zh) * | 2021-09-14 | 2021-12-17 | 企查查科技有限公司 | 企业的分类方法、装置、计算机设备和存储介质 |
CN113807429B (zh) * | 2021-09-14 | 2024-03-29 | 企查查科技股份有限公司 | 企业的分类方法、装置、计算机设备和存储介质 |
CN115239214A (zh) * | 2022-09-23 | 2022-10-25 | 建信金融科技有限责任公司 | 企业的评估处理方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111475603B (zh) | 2023-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111475603B (zh) | 企业标识识别方法、装置、计算机设备及存储介质 | |
CN109885692B (zh) | 知识数据存储方法、装置、计算机设备和存储介质 | |
CN109376309B (zh) | 基于语义标签的文档推荐方法和装置 | |
CN106951422B (zh) | 网页训练的方法和装置、搜索意图识别的方法和装置 | |
CN112818093B (zh) | 基于语义匹配的证据文档检索方法、系统及存储介质 | |
CN104899322A (zh) | 搜索引擎及其实现方法 | |
CN111797214A (zh) | 基于faq数据库的问题筛选方法、装置、计算机设备及介质 | |
US20090319449A1 (en) | Providing context for web articles | |
CN110929125B (zh) | 搜索召回方法、装置、设备及其存储介质 | |
CN109086265B (zh) | 一种语义训练方法、短文本中多语义词消歧方法 | |
GB2395807A (en) | Information retrieval | |
CN110851598A (zh) | 文本分类方法、装置、终端设备及存储介质 | |
CN107861948B (zh) | 一种标签提取方法、装置、设备和介质 | |
CN111832290A (zh) | 用于确定文本相关度的模型训练方法、装置、电子设备及可读存储介质 | |
CN112784009B (zh) | 一种主题词挖掘方法、装置、电子设备及存储介质 | |
CN111666766A (zh) | 数据处理方法、装置和设备 | |
CN114780746A (zh) | 基于知识图谱的文档检索方法及其相关设备 | |
CN113935314A (zh) | 基于异构图网络的摘要抽取方法、装置、终端设备及介质 | |
CN111782793A (zh) | 智能客服处理方法和系统及设备 | |
CN114416995A (zh) | 信息推荐方法、装置及设备 | |
Zhai et al. | Chinese image text recognition with BLSTM-CTC: a segmentation-free method | |
CN114003725A (zh) | 信息标注模型的构建方法以及信息标注的生成方法 | |
CN111191011B (zh) | 一种文本标签的搜索匹配方法、装置、设备及存储介质 | |
CN112800226A (zh) | 用于获取文本分类模型的方法、用于文本分类的方法、装置及设备 | |
CN111625619B (zh) | 查询省略方法、装置、计算机可读介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |