CN109815952A - 品牌名称识别方法、计算机装置及计算机可读存储介质 - Google Patents

品牌名称识别方法、计算机装置及计算机可读存储介质 Download PDF

Info

Publication number
CN109815952A
CN109815952A CN201910067589.XA CN201910067589A CN109815952A CN 109815952 A CN109815952 A CN 109815952A CN 201910067589 A CN201910067589 A CN 201910067589A CN 109815952 A CN109815952 A CN 109815952A
Authority
CN
China
Prior art keywords
brand name
character
brand
text
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910067589.XA
Other languages
English (en)
Inventor
黄幸颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Nesting Technology Co Ltd
Original Assignee
Zhuhai Nesting Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Nesting Technology Co Ltd filed Critical Zhuhai Nesting Technology Co Ltd
Priority to CN201910067589.XA priority Critical patent/CN109815952A/zh
Publication of CN109815952A publication Critical patent/CN109815952A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

本发明提供一种品牌名称识别方法、计算机装置及计算机可读存储介质,该方法包括设置多个标注标签;获取训练文本,根据所设定的标注标签从训练文本中获取预先设定的品牌名称并进行标注;获取训练文本中每一个字符的表征向量,将多个字符组成的字符串输入BERT模型后获得各个字符的表征向量并计算各个字符的各个标签的概率,使用最大概率的标签作为该字符的目标标签,训练品牌识别模型;获取待识别文本,将待识别文本输入品牌识别模型后获取每一个字符的表征向量,根据待识别文本各个字符的标签计算预测品牌名称。本发明还提供实现上述品牌名称识别方法的计算机装置及计算机可读存储介质。本发明能提高品牌名称识别的准确性,并减少人工参与的程度。

Description

品牌名称识别方法、计算机装置及计算机可读存储介质
技术领域
本发明涉及计算机的字符识别领域,尤其涉及一种品牌名称识别方法、实现这种方法的计算机装置以及计算机可读存储介质。
背景技术
随着智能电子设备的普及,人们越来越多使用智能电子设备进行沟通,而各种各样的社交软件、信息分享网站成为人们分享自己生活、工作以及各种经历、情绪的平台。随着人们应用各种社交软件、信息分享网站的发展,形成庞大的社交网络,人们可以通过社交网络及时了解好友以及自己关注的名人的信息。
随着社交网络规模的不断扩大,通过对社交网络的文本信息进行分析已成为分析用户需求,揣度用户情绪的主要数据来源。然而,社交网络中用词具有随机性、口语化以及存在大量缩写、简称等原因,对社交网络的文本信息进行分析存在较大的难度。尤其是社交网络用词还存在大量的专有名词,例如品牌的名称等,如果不能有效的对品牌名称进行识别,将给社交网络文本信息分析带来很大的难度。因此,如何准确地识别出社交文本中的品牌名称,成为对社交网络的文本信息进行分析重要的环节。
为此,社交网络的分析员通过多种方式对社交网络中的文本信息包含的品牌名称进行识别,最常见的做法是将品牌名称识别看作是序列的标注问题,解决这一类问题的传统方法是以隐马尔科夫模型(HMM)、条件随机场(CRF)、最大熵隐马尔可夫模型(MEMM)等为代表的基于概率图模型的方法,这三种方法在过去很长一段时间里都取得了不错的效果。但这三种方法的缺点是需要专家知识的参与,人工定义许多特征,无法做到跨领域通用使用。
并且,由于品牌名称具有复杂性和多样性等特点,并且缺乏领域相关的训练语料,往往需要耗费大量的人工成本进行语料进行收集与标注,而社交网络文本的口语化、随意性等特点也给品牌名称的准确识别增加了很大的难度。因此,如何准确识别出社交网络中文本信息的品牌名称成为社交网络文本信息分析的重要研究方向。
发明内容
本发明的主要目的是提供一种能够准确识别出社交网络文本信息中的品牌名称的品牌名称识别方法。
本发明的另一目的是提供一种能够实现上述品牌名称识别方法的计算机装置。
本发明的再一目的是提供一种能够实现上述品牌名称识别方法的计算机可读存储介质。
为了实现上述的主要目的,本发明提供的品牌名称识别方法包括设置一个以上的标注标签;获取训练文本,根据所设定的标注标签从训练文本中获取预先设定的品牌名称并进行标注;获取训练文本中每一个字符的表征向量,将多个字符组成的字符串输入BERT模型后获取各个字符的表征向量并计算各个字符的各个标签的概率,使用最大概率的标签作为该字符的目标标签,训练获得品牌识别模型;获取待识别文本,将待识别文本输入品牌识别模型后获取每一个字符的表征向量,根据待识别文本各个字符的标签计算预测品牌名称。
由上述方案可见,通过获取大量的训练文本并且对字符进行训练获得品牌识别模型,将待识别的文本输入到该品牌识别模型即可以获得预测品牌名称,由于计算预测品牌名称时使用字符的表征向量,使得品牌名称的预测更加准确。
一个优选的方案是,获取预测品牌名称后,还执行:将预测品牌名称作为关键词在搜索引擎中进行搜索,获取搜索结果作为品牌名称集合,获取品牌名称集合中与预测品牌名称编辑距离最小的目标品牌名称。
由此可见,通过搜索引擎对预测品牌名称进行搜索以后,可以大大减小品牌名称的识别错误率,有利于提高品牌名称识别的准确性。
进一步的方案是,计算品牌识别模型时,随机丢弃一部分字符的表征向量。通过随机丢弃部分单元的输出结果,可以降低模型训练过程中的过拟合风险,从而使得品牌识别模型的建立更加快速、有效,避免建立品牌识别模型花费较长时间的问题。
更进一步的方案是,设置标注标签前,设定至少一个品牌标注类型,每一个品牌标注类型包括至少一个标注标签。
可见,通过设定多个不同类型的品牌标注类型,有利于对不同类型的品牌进行分类,如运动品牌、化妆品品牌以及食品品牌等,有利于提高品牌识别的准确性。
更进一步的方案是,根据所设定的标注标签从训练文本中获取预先设定的品牌名称并进行标注包括:从预设设定的品牌名称词典中获取多个品牌名称,通过对训练文本进行字符识别来标注训练文本中的品牌名称。
由此可见,从预先设定的品牌名称词典中获取多个品牌名称并作为品牌识别模型的训练基础,可以使得品牌识别模型的训练更加有针对性,从而提高待识别文本中品牌名称识别的准确性。
更进一步的方案是,获取训练文本中被标注的每一个字符的表征向量包括:将被标注的多个字符进行字符分割以后形成文本序列,并应用BERT训练模型计算获取每一个字符的表征向量。
更进一步的方案是,计算各个字符的各个标签的概率包括:利用双向长短期记忆网络和条件随机场构建品牌识别模型,将字符分割后的文本序列作为训练样本,在确定上一字符对应标签时,预测下一个字符对应的各个标签的概率。
由此可见,利用BERT方法来训练模型计算获取每一个字符的表征向量,并且利用双向长短期记忆网络和条件随机场构建品牌识别模型,一方面这两种方法是常见的字符识别方法,开度难度较小,另一方面利用这两种方法可以提高品牌识别模型建立的准确度,进而有利于提高目标品牌名称识别的准确性。
此外,本发明使用BERT方法来获取字符表征向量,与现有的方法相比,能够显著提高表征向量的质量,为得到更好的训练效果提供了有力的保障。
为了实现上述的另一目的,本发明还提供的计算机装置包括处理器以及存储器,存储器存储有计算机程序,计算机程序被处理器执行时实现上述的品牌名称识别方法的各个步骤。
为了实现上述的再一目的,本发明还提供的计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述品牌名称识别方法的各个步骤。
附图说明
图1是本发明品牌名称识别方法实施例的流程图。
图2是本发明品牌名称识别方法实施例中字符标签识别的流程图。
图3是本发明品牌名称识别方法实施例中对预测品牌名称进行过滤的流程图。
以下结合附图及实施例对本发明作进一步说明。
具体实施方式
本发明的品牌名称识别方法应用在网络服务器上,例如应用于对社交网络的文本信息进行识别、分析的网络服务器上。本发明的计算机装置可以是上述的网络服务器,计算机可读存储介质可以是具有数据存储功能的各种存储介质,包括但不限于FLASH、EEPROM等非易失性存储器。
品牌名称识别方法实施例:
应用本实施例的品牌名称识别方法的设备可以是网络服务器,优选的,该网络服务器应用于对社交网络的文本信息进行分析,社交网络的文本信息可以是用户在各种社交软件或者自媒体平台中发表的信息,优选的,该信息应该是允许多个不特定的好友或者公众浏览的信息,而不是仅仅针对某一特定好友发表的信息。
参见图1,本实施例的品牌名称识别方法首先执行步骤S1,设定至少一个品牌标注类型,根据品牌类型不同形成不同的标注标签。具体的,可以根据不同类型设定多个品牌标注类型,例如设定运动品牌、食品、化妆品、办公家具等多种不同的品牌标注类型。然后,设定每一个品牌标注类型至少一个标注标签。例如,针对运动品牌的标注类型,可以设定诸如“耐克”、“阿迪达斯”、“李宁”、“安踏”等多种不同的标注标签。
进一步的,一个品牌标注类型可以设置多个子品牌标注类型,例如食品的品牌标注类型可以设置诸如饮料、零食、水果等多个子品牌标注类型,每一个子品牌标注类型再设定多个品牌标注标签,这样更有利于后续对品牌名称的识别。
然后,执行步骤S2,获取训练文本,根据品牌的标注类型及标签进行标注。本实施例中,获取训练文本可以通过爬虫技术从社交网络中爬取大量的文本,这些文本可以是用户通过社交应用程序发布的信息,如微博或者发表在微信朋友圈的文本信息。可选的,如果用户发布的是音频信息,则可以对音频进行文字识别,将音频信息转换成文本信息并作为训练文本。
获取训练文本后,根据预先提供的品牌名词典,获取大量品牌名称的信息,并且利用爬虫技术爬取社交网络中包含该品牌名称的文本作为待标注文本。例如,使用“耐克”作为关键词并通过爬虫技术从社交网络中获取大量的训练文本,因此,获取的训练文本中通常包含有品牌名称。
接着,将根据特定关键字爬取下来的文件与该关键字进行比对,具体的,利用字符串匹配技术自动识别出该关键字在文本中的位置,然后对该字符串进行标注,从而完成品牌名称的标注。例如从获取的训练文本中获取“耐克”两个字的位置,并且对文本中“耐克”两个字进行标注。
并且,如果获取的训练文本中没有包含任何的品牌名称,本实施例不会丢弃该训练文本,而是保留该训练文本以达到扩充训练样本的目的,这样可以增强品牌识别模型的泛化能力,降低了社交网络的文字口语化和随意性对品牌名称识别带来的影响。
然后,执行步骤S3,获取被标注的每一个字符的表征向量,计算各个字符的标签的概率,并且训练获得品牌识别模型。具体的,获取被标注的每一个字符的表征向量,然后对标注后的文本进行分句,每句文本又按照字符进行分割,得到以字符为单位的若干条文本序列,并且利用BERT(Bidirectional Encoder Representations from Transformers)方法进行训练,得到每个字符的字符表征向量。
由于被标注的文本可能包含有品牌的名称以及品牌的类型,例如被识别的文本是“欧莱雅口红”,该文本中包含有品牌名称“欧莱雅”以及商品名称“口红”。为了准确识别出其中的品牌名称,本实施例使用BERT方法、BiLSTM-CRF等方法对品牌名称进行识别。
参见图2,获取被标注的文本以后,对被标注的多个字符进行分割,例如在相邻的两个字符之间添加分隔符,如空格或者其他特定字符,进行字符分割之后即形成多个条文本序列,每一个序列中包含有一个字符,例如形成分别包含有“欧”、“莱”、“雅”、“口”、“红”的文本序列。然后将获取的文本序列应用BERT方法进行训练,获取每一个字符的表征向量。由于应用BERT方法进行训练是现有的技术,在此不再赘述。训练获取的每一个字符的向量可以包括该字符的维度以及每一个维度的数值。
然后,训练获取品牌识别模型。本实施例中,利用keras工具中的双向长短期记忆网络和条件随机场构建品牌识别模型,将字符分割后的文本序列作为训练样本并输入到训练文本中,具体的,每一个时间步中每次输入一个样本的一个字符,即将“欧”、“莱”、“雅”、“口”、“红”这五个字符分别在五个不同的时间步内输入到训练文本中。
具体的,将多个字符的表征向量输入到BiLSTM-CRF模型中并且进行计算,可以计算出每一个字符的标签。由于BiLSTM-CRF模型设定了多个标签,如品牌的标签可以设定为“B”,用“O”表示非品牌名称的标签。进一步的,使用“B”来表示某一品牌名称的第一个字符,“I”表示品牌名称非首字符,而“E”表示品牌名称的末字符。
因此,对“欧莱雅口红”进行识别后,获得“欧”的标签为“B-B”,表示该字符是品牌名称的字符,并且是品牌名称的首字符,“莱”的标签为“I-B”,表示该字符是品牌名称的字符,但并不是品牌名称的首字符,“雅”的标签为“E-B”,表示该字符是品牌名称的字符,并且是品牌名称的末字符,“口”和“红”字符的标签均是“O”,表示这两个字符都不是品牌名称的字符。
优选的,在训练模型同时还可以识别出化妆品品牌名称与运动用品名称,例如“欧莱雅口红”这个训练样本对应的标签分别是B-B、I-B、E-B、O、O,而“阿迪达斯篮球鞋”这个训练样本对于的标签是B-S、I-S、I-S、E-S、O、O、O,其中标签B-B,B-S的第一个B代表品牌名的第一个字符;而第二个B或者S是指示品牌名称属于哪个类型,是化妆品还是运动用品,名片名称的类型可以根据品牌类型自定义的,可以根据实际情况设定。
进一步的,在给定上一个字符对应标签的前提下,可以预测下一个字符取得各个标签的概率,取概率最大者作为该字符的标签。这样,可以更加准确的识别各个字符的标签,由此建立品牌识别模型。优选的,本实施例通过随机丢弃部分单元的输出来降低模型训练过程中的过拟合风险,例如通过随机丢弃一部分字符的表征向量来避免建立品牌识别模型过程中出现的品牌识别模型无法拟合构件的问题。
接着,执行步骤S4,获取待识别文本,将待识别文本的每一个字符组成的字符串输入到步骤S3建立的品牌识别模型中。例如获取某一个特定的用户发表的某一条微博,并且需要对该微博进行识别,分析出该微博中包含有的品牌名称,此时,该微博的文本内容即为待识别的文本。
获取待识别文本后,首先对待识别文本的句子进行字符分割,如使用分隔符对相邻的两个字符进行分隔,形成一个文本序列,然后将该文本序列输入到步骤S3建立的品牌识别模型中。然后,对待识别文本的每个字符进行计算,获得基于BERT的字符表征向量,并且形成一个表征向量的序列。
然后,执行步骤S5,映射获取各个字符对应的表征向量,通过步骤S3建立的品牌识别模型进行每一个字符进行标注,每一个字符具有自己对应的标签,根据标签序列重组得到一个预测品牌名称。优选的,由于每一个字符可能有多个不同的标签,因此,需要根据上一个字符标签来确定下一个字符的标签,例如在确定上一个字符的标签以后,计算下一个字符多个标签中概率最大的作为下一个字符的目标标签,由此确定每一个字符的标签。
在确定每一个字符的标签后,根据各个字符的标签,可以确定待识别文本中哪些字符是品牌名称,哪些字符不是品牌名称,并且可以识别出品牌名称中的首字符、末字符,根据识别出来的首字符与末字符确定一个预测的品牌名称。
如果仅仅使用该预测的品牌名称作为最终的输出结果,则可能出现预测品牌名称不准确的情况,为了提高品牌名称识别的准确度,本实施例还执行步骤S6,对预测的品牌名称进行过滤,获得目标品牌名称并作为结果输出。
参见图3,对品牌名称进行过滤时,首先执行步骤S11,将步骤S5计算的预测品牌名称作为关键词输入搜索引擎,例如可以使用常见的搜索引擎。然后,执行步骤S12,获取搜索引擎的搜索结果。优选的,可以将预测品牌名称输入到多个搜索引擎中,分别获取多个搜索引擎的搜索结果。
接着,执行步骤S13,将搜索引擎的搜索结果作为候选品牌名称的集合。通常,将一个关键词输入到搜索引擎中搜索将可以获取多个搜索结果,将所获取的多个搜索结果都作为候选品牌名称。优选的,通过多个搜索引擎分别获取多个搜索结果,则可以将多个搜索引擎获取到多个结果都作为候选品牌名称。
如果通过多个搜索引擎分别对相同的关键词进行搜索,则获取的多个搜索结果中可能出现大量相同的结果,也就是出现大量相同的候选品牌名称,此时,同一个候选品牌名称在候选品牌名称集合中只出现一次,即将重复的候选品牌名称删除,以确保候选品牌名称集合中不会出现相同的候选品牌名称。
然后,执行步骤S14,分别计算每一个候选品牌名称与预测品牌名称之间的编辑距离。本实施例中,编辑距离是从候选品牌名称编辑成预测品牌名称的编辑次数,如增加一个字符、删减一个字符、改变一个字符、互换相邻两个字符都是一次编辑。例如,预测品牌名称为“阿迪达”,而候选品牌名称为“阿迪达斯”,则候选品牌名称是通过删减一个字符获得预测品牌名称,因此候选品牌名称与预测品牌名称之间的编辑距离是“1”。利用相同的方法可以计算出每一个候选品牌名称与预测品牌名称之间的编辑距离。
最后,执行步骤S15,获取与预测品牌名称之间编辑距离最小的候选品牌名称,并且使用该候选品牌名称作为目标品牌名称,目标品牌名称也就是品牌名称识别的输出结果。如果某一候选品牌名称与预测品牌名称的编辑距离为0,表示候选品牌名称与预测品牌名称完全相同,则可以确定该候选品牌名称为最终输出的结果。
在实际应用过程中,可能出现同时存在多个与预测品牌名称的编辑距离相同的候选品牌名称,此时,从多个与预测品牌名称的编辑距离相同的候选品牌名称中,随机选择其中一个候选品牌名称作为目标品牌名称,或者将多个候选品牌名称都输出。另一种情况是,如果通过多个搜索引擎进行搜索,则可以计算多个候选品牌名称在多个搜索引擎中作为搜索结果出现的次数,使用作为搜索结果出现次数最多的候选品牌名称作为目标候选品牌名称。
此外,如果仅仅使用一个搜索引擎进行搜索,且搜索引擎对搜索结果进行排序的情况下,使用排序较前的候选品牌名称作为目标品牌名称。由于搜索引擎通常按照一定的规则排序搜索结果,例如按照搜索引擎的用户搜索量排序或者按照某一关键词在网页中出现频率进行排序等,因此排序较前的搜索结果通常是人们搜索较多的结果。以排序较前的搜索结果作为目标品牌名称,可以提高品牌名称识别的准确性。
可见,本发明将训练文本的数据爬取与字符的标注进行了整合,只需人工定义要爬取的关键字即可,字符的标注无须人工参与,可以节约人工成本。并且,在获取序列文本后,将保留未包含品牌名称的训练文本作为训练数据,更好地拟合了真实环境中的数据分布,申请人通过大量的实验,表明利用本发明的数据训练方法得到的品牌识别模型,比单纯利用只包含品牌名称的训练文本训练得到的品牌识别模型,具有更高的预测精确度,更强的泛化能力。
此外,本发明提出使用BERT方法获取字符表征向量,与现有的方法相比,能够显著提高表征向量的质量,为得到更好的训练效果提供保障。另外,针对品牌识别模型得到的预测品牌名称,本发明还进行过滤处理,即通过搜索引擎的搜索进行辅助确认,可以进一步保证输出结果的完整性与准确性,同时也为日后的品牌名称的分类提供了数据支撑。
计算机装置实施例:
本实施例的计算机装置包括有处理器、存储器以及存储在存储器中并可在处理器上运行的计算机程序,例如用于实现上述信息处理方法的信息处理程序。处理器执行计算机程序时实现上述品牌名称识别方法的各个步骤。
例如,计算机程序可以被分割成一个或多个模块,一个或者多个模块被存储在存储器中,并由处理器执行,以完成本发明的各个模块。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在终端设备中的执行过程。
需要说明的是,计算机装置可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,本发明的示意图仅仅是终端设备的示例,并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如终端设备还可以包括输入输出设备、网络接入设备、总线等。
本发明所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,处理器是终端设备的控制中心,利用各种接口和线路连接整个终端设备的各个部分。
存储器可用于存储计算机程序和/或模块,处理器通过运行或执行存储在存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现终端设备的各种功能。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
计算机可读存储介质:
计算机装置上集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个品牌名称识别方法的各个步骤。
其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
当然,上述的方案只是本发明优选的实施方案,实际应用是还可以有更多的变化,例如,对预测品牌名称的过滤方式改变,或者,建立品牌识别模型具体步骤的改变等,这样的改变不影响本发明的实施,也应该包括在本发明的保护范围内。

Claims (9)

1.品牌名称识别方法,其特征在于,包括:
设置一个以上的标注标签;
获取训练文本,根据所设定的标注标签从所述训练文本中获取预先设定的品牌名称并进行标注;
获取所述训练文本中被标注的每一个字符的表征向量,将多个字符组成的字符串输入BERT模型后获得各个字符的表征向量并计算各个字符的各个标签的概率,使用最大概率的标签作为该字符的目标标签,训练获得品牌识别模型;
获取待识别文本,将所述待识别文本输入所述品牌识别模型后获取每一个字符的表征向量,根据所述待识别文本各个字符的标签计算预测品牌名称。
2.根据权利要求1所述的品牌名称识别方法,其特征在于:
获取预测品牌名称后,还执行:将所述预测品牌名称作为关键词在搜索引擎中进行搜索,获取搜索结果作为品牌名称集合,获取所述品牌名称集合中与所述预测品牌名称编辑距离最小的目标品牌名称。
3.根据权利要求1或2所述的品牌名称识别方法,其特征在于:
计算品牌识别模型时,随机丢弃一部分字符的表征向量。
4.根据权利要求1或2所述的品牌名称识别方法,其特征在于:
设置所述标注标签前,设定至少一个品牌标注类型,每一个所述品牌标注类型包括至少一个所述标注标签。
5.根据权利要求1或2所述的品牌名称识别方法,其特征在于:
根据所设定的标注标签从所述训练文本中获取预先设定的品牌名称并进行标注包括:从预设设定的品牌名称词典中获取多个品牌名称,通过对所述训练文本进行字符识别来标注所述训练文本中的品牌名称。
6.根据权利要求1或2所述的品牌名称识别方法,其特征在于:
获取所述训练文本中被标注的每一个字符的表征向量包括:将被标注的字符进行字符分割以后形成文本序列,并应用BERT训练模型计算获取每一个字符的表征向量。
7.根据权利要求1或2所述的品牌名称识别方法,其特征在于:
计算各个字符的各个标签的概率包括:利用双向长短期记忆网络和条件随机场构建品牌识别模型,将字符分割后的文本序列作为训练样本,在确定上一字符对应标签时,预测下一个字符对应的各个标签的概率。
8.计算机装置,其特征在于,包括处理器以及存储器,所述存储器存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述品牌名称识别方法的各个步骤。
9.计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述品牌名称识别方法的各个步骤。
CN201910067589.XA 2019-01-24 2019-01-24 品牌名称识别方法、计算机装置及计算机可读存储介质 Pending CN109815952A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910067589.XA CN109815952A (zh) 2019-01-24 2019-01-24 品牌名称识别方法、计算机装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910067589.XA CN109815952A (zh) 2019-01-24 2019-01-24 品牌名称识别方法、计算机装置及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN109815952A true CN109815952A (zh) 2019-05-28

Family

ID=66603675

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910067589.XA Pending CN109815952A (zh) 2019-01-24 2019-01-24 品牌名称识别方法、计算机装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109815952A (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110209822A (zh) * 2019-06-11 2019-09-06 中译语通科技股份有限公司 基于深度学习的学术领域数据相关性预测方法、计算机
CN110222827A (zh) * 2019-06-11 2019-09-10 苏州思必驰信息科技有限公司 基于文本的抑郁判定网络模型的训练方法
CN110275938A (zh) * 2019-05-29 2019-09-24 广州伟宏智能科技有限公司 基于非结构化文档的知识提取方法及系统
CN110309769A (zh) * 2019-06-28 2019-10-08 北京邮电大学 一种对图片中的字符串进行分割的方法
CN110377691A (zh) * 2019-07-23 2019-10-25 上海应用技术大学 文本分类的方法、装置、设备及存储介质
CN110390100A (zh) * 2019-07-16 2019-10-29 广州小鹏汽车科技有限公司 处理方法、第一电子终端、第二电子终端和处理系统
CN111143534A (zh) * 2019-12-26 2020-05-12 腾讯云计算(北京)有限责任公司 基于人工智能的品牌名的提取方法、装置及存储介质
CN111222317A (zh) * 2019-10-16 2020-06-02 平安科技(深圳)有限公司 序列标注方法、系统和计算机设备
CN111310441A (zh) * 2020-01-20 2020-06-19 上海眼控科技股份有限公司 基于bert的语音识别后文本修正方法、装置、终端及介质
CN111460257A (zh) * 2020-03-27 2020-07-28 北京百度网讯科技有限公司 专题生成方法、装置、电子设备和存储介质
CN111460800A (zh) * 2020-03-27 2020-07-28 深圳价值在线信息科技股份有限公司 一种事件生成方法、装置、终端设备及存储介质
CN111488459A (zh) * 2020-04-15 2020-08-04 焦点科技股份有限公司 一种基于关键词的产品分类方法
CN111552890A (zh) * 2020-04-30 2020-08-18 腾讯科技(深圳)有限公司 基于名称预测模型的名称信息处理方法、装置、电子设备
CN111611795A (zh) * 2020-04-14 2020-09-01 广州数说故事信息科技有限公司 一种自动化品牌形象分析方法和系统
CN111782979A (zh) * 2020-06-30 2020-10-16 北京百度网讯科技有限公司 兴趣点的品牌分类方法、装置、设备以及存储介质
CN112148761A (zh) * 2020-10-20 2020-12-29 北京嘀嘀无限科技发展有限公司 一种数据处理方法和系统
CN112347738A (zh) * 2020-11-04 2021-02-09 平安直通咨询有限公司上海分公司 基于裁判文书的双向编码器表征量模型优化方法和装置
CN112395528A (zh) * 2019-08-13 2021-02-23 阿里巴巴集团控股有限公司 文本标签判别方法、装置、电子设备及存储介质
CN113361253A (zh) * 2021-05-28 2021-09-07 北京金山数字娱乐科技有限公司 识别模型训练方法及装置
CN113420146A (zh) * 2021-06-09 2021-09-21 有米科技股份有限公司 素材的品牌识别方法及装置
CN114676319A (zh) * 2022-03-01 2022-06-28 广州云趣信息科技有限公司 获取商家名称的方法、装置及可读存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933152A (zh) * 2015-06-24 2015-09-23 北京京东尚科信息技术有限公司 命名实体识别方法及装置
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN106980608A (zh) * 2017-03-16 2017-07-25 四川大学 一种中文电子病历分词和命名实体识别方法及系统
CN107797989A (zh) * 2017-10-16 2018-03-13 平安科技(深圳)有限公司 企业名称识别方法、电子设备及计算机可读存储介质
CN107908614A (zh) * 2017-10-12 2018-04-13 北京知道未来信息技术有限公司 一种基于Bi‑LSTM的命名实体识别方法
CN107943860A (zh) * 2017-11-08 2018-04-20 北京奇艺世纪科技有限公司 模型的训练方法、文本意图的识别方法及装置
CN108536679A (zh) * 2018-04-13 2018-09-14 腾讯科技(成都)有限公司 命名实体识别方法、装置、设备及计算机可读存储介质
CN108717410A (zh) * 2018-05-17 2018-10-30 达而观信息科技(上海)有限公司 命名实体识别方法及系统
CN108874997A (zh) * 2018-06-13 2018-11-23 广东外语外贸大学 一种面向电影评论的人名命名实体识别方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933152A (zh) * 2015-06-24 2015-09-23 北京京东尚科信息技术有限公司 命名实体识别方法及装置
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN106980608A (zh) * 2017-03-16 2017-07-25 四川大学 一种中文电子病历分词和命名实体识别方法及系统
CN107908614A (zh) * 2017-10-12 2018-04-13 北京知道未来信息技术有限公司 一种基于Bi‑LSTM的命名实体识别方法
CN107797989A (zh) * 2017-10-16 2018-03-13 平安科技(深圳)有限公司 企业名称识别方法、电子设备及计算机可读存储介质
CN107943860A (zh) * 2017-11-08 2018-04-20 北京奇艺世纪科技有限公司 模型的训练方法、文本意图的识别方法及装置
CN108536679A (zh) * 2018-04-13 2018-09-14 腾讯科技(成都)有限公司 命名实体识别方法、装置、设备及计算机可读存储介质
CN108717410A (zh) * 2018-05-17 2018-10-30 达而观信息科技(上海)有限公司 命名实体识别方法及系统
CN108874997A (zh) * 2018-06-13 2018-11-23 广东外语外贸大学 一种面向电影评论的人名命名实体识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JACOB DEVLIN 等: "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding", 《ARXIV:1810.04805V1》 *
ZHIHENG HUANG 等: "Bidirectional LSTM-CRF Models for Sequence Tagging", 《ARXIV:1508.01991V1》 *

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110275938A (zh) * 2019-05-29 2019-09-24 广州伟宏智能科技有限公司 基于非结构化文档的知识提取方法及系统
CN110275938B (zh) * 2019-05-29 2021-09-17 广州伟宏智能科技有限公司 基于非结构化文档的知识提取方法及系统
CN110209822B (zh) * 2019-06-11 2021-12-21 中译语通科技股份有限公司 基于深度学习的学术领域数据相关性预测方法、计算机
CN110222827A (zh) * 2019-06-11 2019-09-10 苏州思必驰信息科技有限公司 基于文本的抑郁判定网络模型的训练方法
CN110209822A (zh) * 2019-06-11 2019-09-06 中译语通科技股份有限公司 基于深度学习的学术领域数据相关性预测方法、计算机
CN110309769A (zh) * 2019-06-28 2019-10-08 北京邮电大学 一种对图片中的字符串进行分割的方法
CN110390100B (zh) * 2019-07-16 2023-10-31 广州小鹏汽车科技有限公司 处理方法、第一电子终端、第二电子终端和处理系统
CN110390100A (zh) * 2019-07-16 2019-10-29 广州小鹏汽车科技有限公司 处理方法、第一电子终端、第二电子终端和处理系统
CN110377691A (zh) * 2019-07-23 2019-10-25 上海应用技术大学 文本分类的方法、装置、设备及存储介质
CN112395528A (zh) * 2019-08-13 2021-02-23 阿里巴巴集团控股有限公司 文本标签判别方法、装置、电子设备及存储介质
CN111222317A (zh) * 2019-10-16 2020-06-02 平安科技(深圳)有限公司 序列标注方法、系统和计算机设备
CN111222317B (zh) * 2019-10-16 2022-04-29 平安科技(深圳)有限公司 序列标注方法、系统和计算机设备
WO2021072852A1 (zh) * 2019-10-16 2021-04-22 平安科技(深圳)有限公司 序列标注方法、系统和计算机设备
CN111143534A (zh) * 2019-12-26 2020-05-12 腾讯云计算(北京)有限责任公司 基于人工智能的品牌名的提取方法、装置及存储介质
CN111310441A (zh) * 2020-01-20 2020-06-19 上海眼控科技股份有限公司 基于bert的语音识别后文本修正方法、装置、终端及介质
CN111460800B (zh) * 2020-03-27 2024-03-22 深圳价值在线信息科技股份有限公司 一种事件生成方法、装置、终端设备及存储介质
CN111460800A (zh) * 2020-03-27 2020-07-28 深圳价值在线信息科技股份有限公司 一种事件生成方法、装置、终端设备及存储介质
CN111460257B (zh) * 2020-03-27 2023-10-31 北京百度网讯科技有限公司 专题生成方法、装置、电子设备和存储介质
CN111460257A (zh) * 2020-03-27 2020-07-28 北京百度网讯科技有限公司 专题生成方法、装置、电子设备和存储介质
CN111611795A (zh) * 2020-04-14 2020-09-01 广州数说故事信息科技有限公司 一种自动化品牌形象分析方法和系统
CN111488459A (zh) * 2020-04-15 2020-08-04 焦点科技股份有限公司 一种基于关键词的产品分类方法
CN111488459B (zh) * 2020-04-15 2022-07-22 焦点科技股份有限公司 一种基于关键词的产品分类方法
CN111552890A (zh) * 2020-04-30 2020-08-18 腾讯科技(深圳)有限公司 基于名称预测模型的名称信息处理方法、装置、电子设备
CN111782979A (zh) * 2020-06-30 2020-10-16 北京百度网讯科技有限公司 兴趣点的品牌分类方法、装置、设备以及存储介质
CN112148761A (zh) * 2020-10-20 2020-12-29 北京嘀嘀无限科技发展有限公司 一种数据处理方法和系统
CN112347738A (zh) * 2020-11-04 2021-02-09 平安直通咨询有限公司上海分公司 基于裁判文书的双向编码器表征量模型优化方法和装置
CN112347738B (zh) * 2020-11-04 2023-09-15 平安直通咨询有限公司上海分公司 基于裁判文书的双向编码器表征量模型优化方法和装置
CN113361253A (zh) * 2021-05-28 2021-09-07 北京金山数字娱乐科技有限公司 识别模型训练方法及装置
CN113361253B (zh) * 2021-05-28 2024-04-09 北京金山数字娱乐科技有限公司 识别模型训练方法及装置
CN113420146A (zh) * 2021-06-09 2021-09-21 有米科技股份有限公司 素材的品牌识别方法及装置
CN114676319A (zh) * 2022-03-01 2022-06-28 广州云趣信息科技有限公司 获取商家名称的方法、装置及可读存储介质
CN114676319B (zh) * 2022-03-01 2023-11-24 广州云趣信息科技有限公司 获取商家名称的方法、装置及可读存储介质

Similar Documents

Publication Publication Date Title
CN109815952A (zh) 品牌名称识别方法、计算机装置及计算机可读存储介质
Feng et al. An expert recommendation algorithm based on Pearson correlation coefficient and FP-growth
CN104254852B (zh) 用于混合信息查询的方法和系统
CN104899273B (zh) 一种基于话题和相对熵的网页个性化推荐方法
CN108874992A (zh) 舆情分析方法、系统、计算机设备和存储介质
CN110168535A (zh) 一种信息处理方法及终端、计算机存储介质
CN106776544A (zh) 人物关系识别方法及装置和分词方法
CN102866990A (zh) 一种主题对话方法和装置
JP2009251850A (ja) 類似画像検索を用いた商品推薦システム
CN112035599B (zh) 基于垂直搜索的查询方法、装置、计算机设备及存储介质
CN103646092A (zh) 基于用户参与的搜索引擎排序方法
CN106022568A (zh) 一种工作流的处理方法和装置
CN104573130A (zh) 基于群体计算的实体解析方法及装置
CN107220325A (zh) 一种基于卷积神经网络的app相似图标检索方法和系统
CN111259167B (zh) 用户请求风险识别方法及装置
CN108509545B (zh) 一种文章的评论处理方法及系统
CN105159898B (zh) 一种搜索的方法和装置
CN104615621B (zh) 搜索中的相关性处理方法和系统
KR101910424B1 (ko) 태그의 감성 분석을 이용한 영화 평점 예측 방법, 이를 수행하기 위한 기록 매체 및 장치
CN106407254B (zh) 用户点击行为链的处理方法及装置
CN112685635A (zh) 基于分类标签的项目推荐方法、装置、服务器和存储介质
CN110717095B (zh) 服务项目的推送方法及装置
CN110008352B (zh) 实体发现方法及装置
CN104462065A (zh) 事件情感类型的分析方法和装置
CN111737577A (zh) 一种基于业务平台的数据查询方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190528