CN115114922A - 实体标签确定方法和装置 - Google Patents

实体标签确定方法和装置 Download PDF

Info

Publication number
CN115114922A
CN115114922A CN202210621182.9A CN202210621182A CN115114922A CN 115114922 A CN115114922 A CN 115114922A CN 202210621182 A CN202210621182 A CN 202210621182A CN 115114922 A CN115114922 A CN 115114922A
Authority
CN
China
Prior art keywords
entity
tag
library
candidate
name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210621182.9A
Other languages
English (en)
Inventor
陈宏斌
谭鸿
关禹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202210621182.9A priority Critical patent/CN115114922A/zh
Publication of CN115114922A publication Critical patent/CN115114922A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了实体标签确定方法和装置。具体而言,一种实体标签提取方法包括:获取实体名称;从实体名称中去除一个或多个冗余词语以获得候选实体标签;将候选实体标签与已知实体标签库中的多个已知实体标签进行匹配;如果候选实体标签与已知实体标签库中的一个已知实体标签相匹配,则确定所匹配的已知实体标签为实体标签;如果候选实体标签与已知实体标签库中的任何已知实体标签都不匹配,则将候选实体标签与已知停用词库中的多个已知停用词进行匹配;以及如果候选实体标签与已知停用词库中的一个或多个已知停用词相匹配,则从候选实体标签中去除一个或多个已知停用词以确定实体标签。

Description

实体标签确定方法和装置
技术领域
本申请涉及互联网领域,尤其涉及对输入文本进行处理以确定实体标签的方法和装置。
背景技术
随着互联网的发展,越来越多的商户通过互联网进行交易。同一品牌下的商户集合通常具有相似的经营方式,对品牌词的准确识别可以有助于降低业务风险和提升用户体验。
商户的品牌信息往往存在于大量用户生成内容(UGC)短文本内容之中,例如,商户名称、描述、产品名等。而信息的录入存在个性化和不规范,由人员进行手工标注需要耗费大量资源。因此,亟需从大量UGC的短文本中自动化地提取商户所对应的品牌词的方案。
发明内容
为解决上述技术问题,本发明提供了一种实体标签提取方法,包括:
获取实体名称;
从所述实体名称中去除一个或多个冗余词语以获得候选实体标签;
将所述候选实体标签与已知实体标签库中的多个已知实体标签进行匹配;
如果所述候选实体标签与所述已知实体标签库中的一个已知实体标签相匹配,则确定所匹配的已知实体标签为实体标签;
如果所述候选实体标签与所述已知实体标签库中的任何已知实体标签都不匹配,则将所述候选实体标签与已知停用词库中的多个已知停用词进行匹配;以及
如果所述候选实体标签与所述已知停用词库中的一个或多个已知停用词相匹配,则从所述候选实体标签中去除所述一个或多个已知停用词以确定所述实体标签。
可任选地,该方法进一步包括:
如果所述候选实体标签与已知实体标签库中的一个已知实体标签相匹配,则从所述候选实体标签中去除所述实体标签以获得一个或多个新增停用词;以及
将所述一个或多个新增停用词存储在所述已知停用词库中。
可任选地,该方法进一步包括:如果所述候选实体标签与所述已知停用词库中的一个或多个已知停用词相匹配,则将所确定的实体标签存储在所述已知实体标签库中。
可任选地,该方法进一步包括,
将用户输入文本输入到经训练的二分类模型中以确定所述用户输入文本的置信度;
如果所述用户输入文本的置信度大于或等于阈值,则确定所述用户输入文本是实体名称;以及
如果所述用户输入文本的置信度小于阈值,则确定所述用户输入文本不是实体名称。
可任选地,该方法进一步包括:
根据实体的一个或多个特征来确定所述实体的实体名称为正样本还是负样本;
使用实体名称的正样本和负样本对所述二分类模型进行训练;以及
其中所述一个或多个特征包括所述实体的历史交易量和所述实体的历史信用分数。
可任选地,从实体名称中去除一个或多个冗余词语以获得候选实体标签包括:
使用命名实体识别(NER)模型将所述实体名称划分为多个词语并确定所述多个词语中的一个或多个冗余词语;以及
从所述实体名称中去除所述一个或多个冗余词语以获得所述候选实体标签。
可任选地,该方法进一步包括,
按照字符长度将与一实体相关联的多个实体标签划分为多个实体标签子集;
将所述多个实体标签子集彼此进行匹配得到所述多个实体标签的归一化实体标签;以及
将所述归一化实体标签存储在所述已知实体标签库中。
可任选地,所述实体名称包括商户名称,并且所述实体标签包括品牌词。
本公开的另一方面提供了一种实体标签提取装置,包括:
用于获取实体名称的模块;
用于从所述实体名称中去除一个或多个冗余词语以获得候选实体标签的模块;
用于将所述候选实体标签与已知实体标签库中的多个已知实体标签进行匹配的模块;
用于如果所述候选实体标签与所述已知实体标签库中的一个已知实体标签相匹配,则确定所匹配的已知实体标签为实体标签的模块;
用于如果所述候选实体标签与所述已知实体标签库中的任何已知实体标签都不匹配,则将所述候选实体标签与已知停用词库中的多个已知停用词进行匹配的模块;以及
用于如果所述候选实体标签与所述已知停用词库中的一个或多个已知停用词相匹配,则从所述候选实体标签中去除所述一个或多个已知停用词以确定所述实体标签的模块。
可任选地,该装置进一步包括,
用于如果所述候选实体标签与已知实体标签库中的一个已知实体标签相匹配,则从所述候选实体标签中去除所述实体标签以获得一个或多个新增停用词的模块;以及
用于将所述一个或多个新增停用词存储在所述已知停用词库中的模块。
可任选地,该装置进一步包括,
用于如果所述候选实体标签与所述已知停用词库中的一个或多个已知停用词相匹配,则将所确定的实体标签存储在所述已知实体标签库中的模块。
可任选地,该装置进一步包括,
用于将用户输入文本输入到经训练的二分类模型中以确定所述用户输入文本的置信度的模块;
用于如果所述用户输入文本的置信度大于或等于阈值,则确定所述用户输入文本是实体名称的模块;以及
用于如果所述用户输入文本的置信度小于阈值,则确定所述用户输入文本不是实体名称的模块。
可任选地,该装置进一步包括:
用于根据实体的一个或多个特征来确定所述实体的实体名称为正样本还是负样本的模块;
用于使用实体名称的正样本和负样本对所述二分类模型进行训练的模块;以及
其中所述一个或多个特征包括所述实体的历史交易量和所述实体的历史信用分数。
可任选地,用于从实体名称中去除一个或多个冗余词语以获得候选实体标签包括:
用于使用命名实体识别(NER)模型将所述实体名称划分为多个词语并确定所述多个词语中的一个或多个冗余词语的模块;以及
用于从所述实体名称中去除所述一个或多个冗余词语以获得所述候选实体标签的模块。
可任选地,该装置进一步包括,
用于按照字符长度将与一实体相关联的多个实体标签划分为多个实体标签子集的模块;
用于将所述多个实体标签子集彼此进行匹配得到所述多个实体标签的归一化实体标签的模块;以及
用于将所述归一化实体标签存储在所述已知实体标签库中的模块。
可任选地,所述实体名称包括商户名称,并且所述实体标签包括品牌词的模块。
本公开的又一方面提供了一种实体标签提取装置,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
获取实体名称;
从所述实体名称中去除一个或多个冗余词语以获得候选实体标签;
将所述候选实体标签与已知实体标签库中的多个已知实体标签进行匹配;
如果所述候选实体标签与所述已知实体标签库中的一个已知实体标签相匹配,则确定所匹配的已知实体标签为实体标签;
如果所述候选实体标签与所述已知实体标签库中的任何已知实体标签都不匹配,则将所述候选实体标签与已知停用词库中的多个已知停用词进行匹配;以及
如果所述候选实体标签与所述已知停用词库中的一个或多个已知停用词相匹配,则从所述候选实体标签中去除所述一个或多个已知停用词以确定所述实体标签。
附图说明
图1是根据本公开的各方面的实体标签确定方法的示图。
图2是根据本公开的各方面的实体标签确定装置的模块图。
图3是根据本公开的各方面的实体标签确定方法的流程图。
图4是根据本申请的各方面的用于实体标签确定的电子设备的示图。
具体实施方式
为让本发明的上述目的、特征和优点能更明显易懂,以下结合附图对本发明的具体实施方式作详细说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其它不同于在此描述的其它方式来实施,因此本发明不受下面公开的具体实施例的限制。
在互联网应用中,往往需要从用户(例如,商户、消费者等)输入的文本中提取相关的品牌词。例如,商户进行注册时输入的文本信息中可包括品牌信息,消费者在应用上搜索商品时输入的文本也往往包括品牌信息。从用户输入的文本中提取品牌词有助于管理商户、降低业务风险、并且提升用户体验。
在现有技术中,从用户输入文本确定品牌词的方案包括静态品牌词典。但静态品牌词典依赖于人工录入和维护,受限于人工经验且耗费人工成本,并且新的品牌不断出现,静态品牌词典无法满足对新增品牌的覆盖。另一种现有技术的方案是命名实体识别(NER,Named Entity Recognition)模型来识别文本中的品牌词,其使用文本分类器评估段文本的质量并挖掘新词,从而识别出文本中的品牌词。但在实践中,由于品牌次文本长度过短,包含的信息较少,而基于深度网络的文本分类器往往很难具有良好的泛化性能,容易退化成静态字典,造成错误传播,降低品牌词识别的准确性。
为了解决以上问题,本公开提出了一种改进的品牌词识别方法和装置,提高了自动识别品牌词的准确性。本公开的方案以隐含品牌信息的用户生成内容(UGC)作为输入,经过商户名称识别、候选品牌词确定、品牌词确定、品牌词归一化等步骤,生成品牌词库和停用词库以用于在后续品牌词识别过程中使用,由此提升了自动识别品牌词的效率和准确度。
请注意,在本公开中,实体名称指代商户名称(例如,商户的店铺名),实体标签指代品牌词,但本公开的范围并不限于此,本领域技术人员能够构想到本公开的方案能够适用于其他合适的文本识别领域。
图1是根据本公开的各方面的实体标签确定方法的示图。
如图1所示,在步骤102,可以从用户输入文本确定实体名称。
例如,可以从用户输入文本确定商户名称。作为示例,该用户输入文本可以是商户在输入的文本(例如,在注册时输入的文本),也可以是消费者在应用上搜索商品时输入的文本。
用户在填写商户名称时,输入的文本可能不规范。例如,用户输入的文本可能是商户的经营者姓名、经营者注册的公司名、商户的地址等不标准文本,其中并不包含所需的商户名称信息。
本公开使用经训练的二分类模型处理用户输入文本,以确定该用户输入文本是否为实体名称。该二分类模型可以是BERT(Bidirectional Encoder Representation fromTransformers)模型。BERT模型的输入是文本(例如,用户输入文本),输入是该文本为商户名称的置信度。
首先,可以使用实体名称的正样本和负样本来训练BERT模型。
具体而言,可以根据历史实体名称所关联的实体的一个或多个特征(例如,交易特征、信用特征等)来确定该历史实体名称为正样本还是负样本。例如,该实体的特征可包括实体的历史交易量和/或信用分数等等。
在一个示例中,如果实体的历史交易量大于一阈值,则确定该实体所关联的实体名称为正样本;否则确定该实体所关联的实体名称为负样本。
在另一示例中,如果实体的信用分数大于一阈值,则确定该实体所关联的实体名称为正样本;否则确定该实体所关联的实体名称为负样本。
在又一示例中,可以对实体的历史交易量和信用分数进行加权求和,如果加权求和的结果大于一阈值,则确定该实体所关联的实体名称为正样本;否则确定该实体所关联的实体名称为负样本。
也可使用其他的方式来利用实体的特征确定其所关联的实体名称为正样本还是负样本。
可以使用所确定的正样本实体名称及其标签(例如,1)、以及负样本实体名称及其标签(例如,0)来训练BERT模型。请注意,以上标签的取值仅是示例,其他标签的取值也在本申请的构想中。
随后,可使用经训练的BERT模型来预测用户输入文本是否为商户名称。
具体而言,可将用户输入文本输入到经训练的BERT模型中,确定该用户输入文本的置信度。如果用户输入文本的置信度大于或等于一阈值,则确定用户输入文本为实体名称,进行后续提取实体标签的处理。如果用户输入文本的置信度小于该阈值,则确定用户输入文本不是实体名称,由此不做后续处理。
本公开利用商户的特征(例如,历史交易/信用特征)来训练BERT模型,使得模型对商户名称的置信度的预测更为准确,由此更有效地对用户输入文本进行过滤,获得有效的商户名称,并且提高了后续品牌词提取的效率。
在步骤104,可以从所获取的实体名称确定候选实体标签。
例如,可以从所获取的商户名称确定候选品牌词。
与现有技术使用命名实体识别(NER)模型识别品牌词不同,本公开中的技术方案使用命名实体识别(NER)模型识别其中的一个或多个冗余词语,随后从实体名称中去除所识别的一个或多个冗余词语来确定候选实体标签。在本公开中,冗余词语是指实体名称中除了实体标签词语(本文称为候选实体标签)之外的词语,例如,商户名称中除了品牌词语(本文称为候选品牌词)之外的词语。
商户名称往往在品牌词之外还包括一些常用词语,例如,地址信息、店铺分号等。本公开利用NER模型从商户名称中识别出这些常用词语(即,冗余词语),随后从商户名称中去除这些常用词语,即得到候选品牌词。
NER模型可对文本进行分词,将分词识别为各个类型,并且标识出其中的冗余词语。
例如,用户输入文本中除品牌词信息之外还可包括地址信息、店铺编号等信息。可通过NER模型将文本中的各个词语划分为不同类型并且识别其中的地址信息、店铺编号等冗余词语。从实体名称中去除冗余词语,即可得到候选实体标签(候选品牌词)。
举例而言,商户名称可以被分词为包括多个类型的词语,包括品牌词信息词语、地址信息词语和店铺编号词语等。
作为一个示例,商户名称可以为“杭州市拱墅区顺旺基快餐店江南大道分店”。NER模型可将其分词为“杭州市”、“拱墅区”、“顺旺基快餐店”、“江南大道”、“分店”,其中“杭州市”、“拱墅区”、“江南大道”为地址信息,“顺旺基快餐店”为品牌词信息,“分店”为店铺编号。NER模型可识别出地址信息“杭州市”、“拱墅区”、“江南大道”和店铺编号“分店”,并将其识别为冗余词语。从商户名称中去除冗余词语,由此得到候选实体标签“顺旺基快餐店”。
作为另一个示例,商户名称可以为“南京市玄武区大龙火锅中山路1店”,NER模型可将其分词为“南京市”、“玄武区”、“大龙火锅”、“中山路”、“1店”,其中“南京市”、“玄武区”、“中山路”为地址信息,“大龙火锅”为品牌词信息,“1店”为店铺编号。NER模型可识别出地址信息“南京市”、“玄武区”、“中山路”,店铺编号“1店”,并将其识别为冗余词语。从商户名称中去除冗余词语,由此得到候选实体标签“大龙火锅”。
以上内容以地址信息和店铺编号作为冗余词语的示例进行了解说,但本领域技术人员将领会,其他类型的冗余词语也在本公开的构想中。
以上所使用的NER模型是经训练的NER模型。具体而言,可以使用实体名称样本和其中的冗余词语来训练NER模型。例如,可以使用历史获得的实体名称、实体名称中的冗余词语(例如,地址、店铺编号等)及其相应标签来训练NER模型。
由此经训练的NER模型能够对新输入的实体名称准确地分词并且识别各个词语的类型,进一步识别出冗余词语。
随后从实体名称中去除冗余词语,即得到候选实体标签。
现有技术使用NER模型进行频繁序列挖掘,生成候选序列集,再利用文本打分模型对词语的质量做评估,加入新的候选品牌词,本质是做加法的思想。但如果评估模型准确度不高,将会造成错误传播。另外,品牌词通常较短(大多数为3-5个字符),4字符及以下的品牌词占品牌词总数的64%。现有技术中使用候选序列生成的方案,对于识别短字数的品牌词容易出现差错。
本公开通过将文本中的无关信息(即,冗余信息)剔除来得到品牌相关文本,本质是将商户名称中的无关信息剔除的减法的思想。商户名称中所包括的冗余词语的规律性较强,NER模型对冗余词语的标识较为准确。本公开并不依赖于单一模型,使用了通用的NER序列标注的能力,并且通过用户定制化词典的方式来保证NER能力的优化迭代,鲁棒性更好。
在步骤106,通过处理候选实体标签来确定实体标签。
步骤104中所获得的候选实体标签中可能还存在一些无关信息(例如,修饰词)。通过从候选实体标签中去除这些无关信息(在本文中被称为停用词),可以确定准确的实体标签。
本公开使用已知实体标签库(品牌词库)和已知停用词库进行迭代处理来确定实体标签(品牌词)。具体而言,在第一轮迭代时,可以从公开的品牌加盟数据集中收集品牌词文本,作为初始种子形成已知品牌词库(实体标签库)。
在从候选实体标签来确定实体标签的步骤中,首先将候选实体标签与已知实体标签库中所存储的各实体标签进行匹配。
一方面,如果候选实体标签与已知实体标签库中所存储的一个实体标签相匹配(即,候选实体标签包括实体标签库中所存储的该实体标签),则确定该实体标签为与候选实体标签相对应的实体标签。进一步,可以从候选实体标签中去除该实体标签,以获得一个或多个新增停用词。
例如,在上述示例中,可将所确定的候选实体标签“顺旺基快餐店”与已知实体标签库中的各实体标签进行匹配。作为结果,“顺旺基”与已知实体标签库中的已知实体标签“顺旺基”相匹配。由此可确定“顺旺基”为该候选实体标签所对应的实体标签。
进一步,可以从候选实体标签“顺旺基快餐店”中去除所确定的实体标签“顺旺基”,得到停用词“快餐店”,并且将所获得的停用词“快餐店”存储在已知停用词库中,以供后续使用。
另一方面,如果候选实体标签与已知实体标签库中的任何已知实体标签都不匹配,则可将候选实体标签与已知停用词库中的各已知停用词进行匹配。
如果候选实体标签与已知停用词库中的一个或多个已知停用词相匹配(即,候选实体标签包括已知停用词库中的该一个或多个已知停用词),则可从候选实体标签中去除该一个或多个停用词以确定实体标签。
例如,如果候选实体标签“大龙火锅”与已知实体标签库中的任何已知实体标签都不匹配,则可将其与已知停用词库中的各已知停用词进行匹配。如果候选实体标签“大龙火锅”与已知停用库中的已知停用词“火锅”相匹配,则可从候选实体标签中去除停用词“火锅”以确定实体标签为“大龙”。
所确定的实体标签可被存储在已知实体标签库中以供后续使用。
本公开在确定实体标签的过程中迭代地更新已知实体标签库和停用词库,优化了实体标签提取和停用词提取,提出了提升实体标签库的规模和准确性的自迭代优化方案。
在可任选步骤108,可以将实体标签进行归一化。
在实际操作中,同一个实体可能存在多个版本的实体标签。换言之,一个实体(品牌)可具有不同文本的实体标签(品牌词),例如,“正新鸡排”、“正新鸡排杯”、“人气正新鸡排”、“正新鸡排实体店”等等。可以将不同版本的实体标签归一化为标准版的实体标签。
具体而言,可以按照字符长度将与一实体相关联的多个实体标签划分为多个实体标签子集。
例如,“正新鸡排”、“正新鸡排杯”、“人气正新鸡排”、“正新鸡排实体店”可分别被划分到4字符子集、5字符子集、6字符子集、7字符子集中。
随后可将该多个实体标签子集彼此进行比对并提取其所包括的相同文本,选择相同文本中字符长度最长的文本,得到该多个实体标签的归一化实体标签。
例如,可将多个实体标签“正新鸡排”、“正新鸡排杯”、“人气正新鸡排”、“正新鸡排实体店”彼此进行匹配,将匹配得到的相同文本(例如,“正新”、“鸡排”、“新鸡排”、“正新鸡排”等)中的字符长度最长的文本“正新鸡排”确定为以上各实体标签的归一化实体标签。
可以将归一化实体标签存储在所述已知实体标签库中以供后续使用。例如,可将归一化实体标签“正新鸡排”代替“正新鸡排”、“正新鸡排杯”、“人气正新鸡排”、“正新鸡排实体店”存储在已知实体标签库中。
本公开针对品牌词的多版本问题,基于品牌词的字符数量来进行归一化,有效地完成了品牌词的多版本归一化的问题。通过使用归一化的品牌词,可提高后续品牌词提取的效率和准确度。
图2是根据本公开的各方面的实体标签确定装置的模块图。
如图2所示,实体标签确定装置200可包括实体名称提取模块202、候选实体标签确定模块204、实体标签确定模块206、实体标签库208、停用词库210、以及实体标签归一化模块212。
实体名称提取模块202可从用户输入文本中过滤掉不标准文本,由此提取实体名称。实体名称提取模块202可以是二分类模型,例如,BERT模型。
BERT模型可以首先使用正样本和负样本来训练。具体而言,可以根据历史实体名称所关联的实体(例如,商户)的一个或多个特征来确定该历史实体名称为正样本还是负样本。该实体的特征可包括实体的历史交易量和/或信用分数等等。
可以使用所确定的正样本和负样本及其对应标签来训练BERT模型。
随后可以将用户输入文本输入到经训练的BERT模型中,确定该用户输入文本的置信度。如果用户输入文本的置信度大于或等于一阈值,则确定用户输入文本为实体名称,进行后续提取实体标签的处理。如果用户输入文本的置信度小于该阈值,则确定用户输入文本不是实体名称,由此不做后续处理。
候选实体标签确定模块204从实体名称提取模块202输出的实体名称中识别和确定冗余词语以确定候选实体标签。
候选实体标签确定模块204可以是NER模型。NER模型可对文本进行分词,将分词得到的词语识别为各个类型,并且识别出其中的冗余词语。
在处理前,可以使用实体名称样本来训练NER模型。例如,可以使用历史上获得的实体名称、实体名称中的冗余词语(例如,地址、店铺编号等)及其相应标签来训练NER模型。由此经训练的NER模型能够对新输入的实体名称准确地分词并且识别各个词语的类型,由此识别出冗余词语。
随后可以使用经训练的NER模型处理实体名称,对实体名称进行分词,将分词得到的词语识别为各个类型,并且标识出其中的冗余词语。冗余词语可以是地址、店铺编号等无关信息。在识别出冗余词语之后,可从实体名称中去除所识别的冗余词语,从而得到候选实体标签。
实体标签确定模块206根据所确定的候选实体标签来确定对应的实体标签。
实体标签确定模块206与实体标签库208和停用词库210连接并处于通信。
在操作中,实体标签确定模块206将候选实体标签与实体标签库208中所存储的各实体标签进行匹配。
如果候选实体标签与实体标签库208中所存储的一个实体标签相匹配,则确定该实体标签为与候选实体标签相对应的实体标签。进一步,可以从候选实体标签中去除该实体标签,以获得一个或多个新增停用词,并将该一个或多个新增停用词存储在停用词库210中。
如果候选实体标签与实体标签库208中的任何已知实体标签都不匹配,则可将候选实体标签与停用词库210中的各已知停用词进行匹配。
如果候选实体标签与停用词库210中的一个或多个已知停用词相匹配,则可从候选实体标签中去除该一个或多个停用词以确定实体标签。所确定的实体标签可被存储在已知实体标签库中以供后续使用。
本公开的优选方面可包括实体标签归一化模块212。实体标签归一化模块212可将多个版本的实体标签进行归一化以得到归一化实体标签。
具体而言,可以按照字符长度将与一实体相关联的多个实体标签划分为多个实体标签子集。随后可将该多个实体标签子集彼此进行比对并提取其所包括的相同文本,选择相同文本中字符长度最长的文本,得到该多个实体标签的归一化实体标签。
可将该归一化实体标签存储在实体标签库中。
具体而言,可将与该实体相关的归一化实体标签替换与该实体相关的多个版本的实体标签。
图3是根据本公开的各方面的实体标签确定方法的流程图。
在步骤302,可以获取实体名称。
在一方面,可以将用户输入文本输入到经训练的二分类模型中以确定所述用户输入文本的置信度。如果用户输入文本的置信度大于或等于阈值,则确定用户输入文本是实体名称。如果所述用户输入文本的置信度小于阈值,则确定用户输入文本不是实体名称。该二分类模型可以是BERT模型。
在一方面,可以根据实体的一个或多个特征来确定该实体的实体名称为正样本还是负样本。可以使用实体名称的正样本和负样本对所述二分类模型进行训练。该所述一个或多个特征包括所述实体的历史交易量和所述实体的历史信用分数。
在步骤304,可以从实体名称中去除一个或多个冗余词语以获得候选实体标签。
在一方面,可以使用命名实体识别(NER)模型将实体名称划分为多个词语并确定该多个词语中的一个或多个冗余词语。可以从实体名称中去除该一个或多个冗余词语以获得所述候选实体标签。
在步骤306,可以将候选实体标签与已知实体标签库中的多个已知实体标签进行匹配。
在步骤308,如果候选实体标签与所述已知实体标签库中的一个已知实体标签相匹配,则可以确定所匹配的已知实体标签为实体标签。
在一方面,如果候选实体标签与已知实体标签库中的一个已知实体标签相匹配,则可以从候选实体标签中去除所匹配的实体标签以获得一个或多个新增停用词,并且可以将该一个或多个新增停用词存储在已知停用词库中。
在一方面,可以将所确定的实体标签存储在已知实体标签库中。
在步骤310,如果候选实体标签与已知实体标签库中的任何已知实体标签都不匹配,则可以将候选实体标签与已知停用词库中的多个已知停用词进行匹配。
在步骤312,如果候选实体标签与已知停用词库中的一个或多个已知停用词相匹配,则可以从候选实体标签中去除该一个或多个已知停用词以确定实体标签。
在一方面,可以按照字符长度将与一实体相关联的多个实体标签划分为多个实体标签子集;将该多个实体标签子集彼此进行匹配得到该多个实体标签的归一化实体标签;以将该归一化实体标签存储在已知实体标签库中。
在一方面,该实体名称可包括商户名称,并且该实体标签可包括品牌词。
图4是根据本申请的各方面的用于实体标签确定的电子设备400的示图。
如图4所示,电子设备400可包括存储器402和处理器404。存储器402中存储有程序指令,处理器404可通过总线406与存储器402连接并通信。
处理器404可调用存储器402中的程序指令以执行以下步骤:获取实体名称;从所述实体名称中去除一个或多个冗余词语以获得候选实体标签;将所述候选实体标签与已知实体标签库中的多个已知实体标签进行匹配;如果所述候选实体标签与所述已知实体标签库中的一个已知实体标签相匹配,则确定所匹配的已知实体标签为实体标签;如果所述候选实体标签与所述已知实体标签库中的任何已知实体标签都不匹配,则将所述候选实体标签与已知停用词库中的多个已知停用词进行匹配;以及如果所述候选实体标签与所述已知停用词库中的一个或多个已知停用词相匹配,则从所述候选实体标签中去除所述一个或多个已知停用词以确定所述实体标签。其中所述实体名称可包括商户名称,并且所述实体标签可包括品牌词。
可任选地,处理器404还可以调用存储器402中的程序指令以执行以下步骤:如果所述候选实体标签与已知实体标签库中的一个已知实体标签相匹配,则从所述候选实体标签中去除所述实体标签以获得一个或多个新增停用词;以及将所述一个或多个新增停用词存储在所述已知停用词库中。
可任选地,处理器404还可以调用存储器402中的程序指令以执行以下步骤:如果所述候选实体标签与所述已知停用词库中的一个或多个已知停用词相匹配,则将所确定的实体标签存储在所述已知实体标签库中。
可任选地,处理器404还可以调用存储器402中的程序指令以执行以下步骤:将用户输入文本输入到经训练的二分类模型中以确定所述用户输入文本的置信度;如果所述用户输入文本的置信度大于或等于阈值,则确定所述用户输入文本是实体名称;以及如果所述用户输入文本的置信度小于阈值,则确定所述用户输入文本不是实体名称。
可任选地,处理器404还可以调用存储器402中的程序指令以执行以下步骤:根据实体的一个或多个特征来确定所述实体的实体名称为正样本还是负样本;使用实体名称的正样本和负样本对所述二分类模型进行训练;以及其中所述一个或多个特征包括所述实体的历史交易量和所述实体的历史信用分数。
可任选地,处理器404还可以调用存储器402中的程序指令以执行以下步骤:使用命名实体识别(NER)模型将所述实体名称划分为多个词语并确定所述多个词语中的一个或多个冗余词语;以及从所述实体名称中去除所述一个或多个冗余词语以获得所述候选实体标签。
可任选地,处理器404还可以调用存储器402中的程序指令以执行以下步骤:按照字符长度将与一实体相关联的多个实体标签划分为多个实体标签子集;将所述多个实体标签子集彼此进行匹配得到所述多个实体标签的归一化实体标签;以及将所述归一化实体标签存储在所述已知实体标签库中。
本公开的实体标签确定方法至少提供了以下优点:
一、本公开利用商户的特征(例如,历史交易/信用特征)来训练BERT模型,使得模型对商户名称的置信度的预测更为准确,由此更有效地对用户输入文本进行过滤,获得有效的商户名称,并且提高了后续品牌词提取的效率。
二、本公开通过将文本中的无关信息剔除来得到品牌相关文本,本质是将商户名称中的无关信息剔除的减法的思想。商户名称中所包括的冗余词语的规律性较强,NER模型对冗余词语的标识较为准确。本公开并不依赖于单一模型,使用了通用的NER序列标注的能力,并且通过用户定制化词典的方式来保证NER能力的优化迭代,鲁棒性更好。
三、本公开在确定实体标签(品牌词)的过程中迭代地更新已知实体标签库和停用词库,优化了实体标签提取和停用词提取,提出了提升实体标签库的规模和准确性的自迭代优化方案。
四、本公开提出了对品牌词的归一化方案。针对品牌词的多版本问题,基于品牌词的字符数量来进行归一化,有效地完成了品牌词的多版本归一化的问题。通过使用归一化的品牌词,可提高后续品牌词提取的效率和准确度。
本文结合附图阐述的说明描述了示例配置而不代表可被实现或者落在权利要求的范围内的所有示例。本文所使用的术语“示例性”意指“用作示例、实例或解说”,而并不意指“优于”或“胜过其他示例”。本详细描述包括具体细节以提供对所描述的技术的理解。然而,可以在没有这些具体细节的情况下实践这些技术。在一些实例中,众所周知的结构和设备以框图形式示出以避免模糊所描述的示例的概念。
在附图中,类似组件或特征可具有相同的附图标记。此外,相同类型的各个组件可通过在附图标记后跟随短划线以及在类似组件之间进行区分的第二标记来加以区分。如果在说明书中仅使用第一附图标记,则该描述可应用于具有相同的第一附图标记的类似组件中的任何一个组件而不论第二附图标记如何。
结合本文中的公开描述的各种解说性框以及模块可以用设计成执行本文中描述的功能的通用处理器、DSP、ASIC、FPGA或其他可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其任何组合来实现或执行。通用处理器可以是微处理器,但在替换方案中,处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可被实现为计算设备的组合(例如,DSP与微处理器的组合、多个微处理器、与DSP核心协同的一个或多个微处理器,或者任何其他此类配置)。
本文中所描述的功能可以在硬件、由处理器执行的软件、固件、或其任何组合中实现。如果在由处理器执行的软件中实现,则各功能可以作为一条或多条指令或代码存储在计算机可读介质上或藉其进行传送。其他示例和实现落在本公开及所附权利要求的范围内。例如,由于软件的本质,以上描述的功能可使用由处理器执行的软件、硬件、固件、硬连线或其任何组合来实现。实现功能的特征也可物理地位于各种位置,包括被分布以使得功能的各部分在不同的物理位置处实现。另外,如本文(包括权利要求中)所使用的,在项目列举(例如,以附有诸如“中的至少一个”或“中的一个或多个”之类的措辞的项目列举)中使用的“或”指示包含性列举,以使得例如A、B或C中的至少一个的列举意指A或B或C或AB或AC或BC或ABC(即,A和B和C)。同样,如本文所使用的,短语“基于”不应被解读为引述封闭条件集。例如,被描述为“基于条件A”的示例性步骤可基于条件A和条件B两者而不脱离本公开的范围。换言之,如本文所使用的,短语“基于”应当以与短语“至少部分地基于”相同的方式来解读。
计算机可读介质包括非瞬态计算机存储介质和通信介质两者,其包括促成计算机程序从一地向另一地转移的任何介质。非瞬态存储介质可以是能被通用或专用计算机访问的任何可用介质。作为示例而非限定,非瞬态计算机可读介质可包括RAM、ROM、电可擦除可编程只读存储器(EEPROM)、压缩盘(CD)ROM或其他光盘存储、磁盘存储或其他磁存储设备、或能被用来携带或存储指令或数据结构形式的期望程序代码手段且能被通用或专用计算机、或者通用或专用处理器访问的任何其他非瞬态介质。任何连接也被正当地称为计算机可读介质。例如,如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来的,则该同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文所使用的盘(disk)和碟(disc)包括CD、激光碟、光碟、数字通用碟(DVD)、软盘和蓝光碟,其中盘常常磁性地再现数据而碟用激光来光学地再现数据。以上介质的组合也被包括在计算机可读介质的范围内。
提供本文的描述是为了使得本领域技术人员能够制作或使用本公开。对本公开的各种修改对于本领域技术人员将是显而易见的,并且本文中定义的普适原理可被应用于其他变形而不会脱离本公开的范围。由此,本公开并非被限定于本文所描述的示例和设计,而是应被授予与本文所公开的原理和新颖特征相一致的最广范围。

Claims (17)

1.一种实体标签确定方法,包括:
获取实体名称;
从所述实体名称中去除一个或多个冗余词语以获得候选实体标签;
将所述候选实体标签与已知实体标签库中的多个已知实体标签进行匹配;
如果所述候选实体标签与所述已知实体标签库中的一个已知实体标签相匹配,则确定所匹配的已知实体标签为实体标签;
如果所述候选实体标签与所述已知实体标签库中的任何已知实体标签都不匹配,则将所述候选实体标签与已知停用词库中的多个已知停用词进行匹配;以及
如果所述候选实体标签与所述已知停用词库中的一个或多个已知停用词相匹配,则从所述候选实体标签中去除所述一个或多个已知停用词以确定所述实体标签。
2.如权利要求1所述的方法,进一步包括,
如果所述候选实体标签与已知实体标签库中的一个已知实体标签相匹配,则从所述候选实体标签中去除所述实体标签以获得一个或多个新增停用词;以及
将所述一个或多个新增停用词存储在所述已知停用词库中。
3.如权利要求1所述的方法,进一步包括,
如果所述候选实体标签与所述已知停用词库中的一个或多个已知停用词相匹配,则将所确定的实体标签存储在所述已知实体标签库中。
4.如权利要求1所述的方法,进一步包括,
将用户输入文本输入到经训练的二分类模型中以确定所述用户输入文本的置信度;
如果所述用户输入文本的置信度大于或等于阈值,则确定所述用户输入文本是实体名称;以及
如果所述用户输入文本的置信度小于阈值,则确定所述用户输入文本不是实体名称。
5.如权利要求4所述的方法,进一步包括:
根据实体的一个或多个特征来确定所述实体的实体名称为正样本还是负样本;
使用实体名称的正样本和负样本对所述二分类模型进行训练;以及
其中所述一个或多个特征包括所述实体的历史交易量和所述实体的历史信用分数。
6.如权利要求1所述的方法,其中从实体名称中去除一个或多个冗余词语以获得候选实体标签包括:
使用命名实体识别(NER)模型将所述实体名称划分为多个词语并确定所述多个词语中的一个或多个冗余词语;以及
从所述实体名称中去除所述一个或多个冗余词语以获得所述候选实体标签。
7.如权利要求1所述的方法,进一步包括,
按照字符长度将与一实体相关联的多个实体标签划分为多个实体标签子集;
将所述多个实体标签子集彼此进行匹配得到所述多个实体标签的归一化实体标签;以及
将所述归一化实体标签存储在所述已知实体标签库中。
8.如权利要求1所述的方法,其中所述实体名称包括商户名称,并且所述实体标签包括品牌词。
9.一种实体标签确定装置,包括:
用于获取实体名称的模块;
用于从所述实体名称中去除一个或多个冗余词语以获得候选实体标签的模块;
用于将所述候选实体标签与已知实体标签库中的多个已知实体标签进行匹配的模块;
用于如果所述候选实体标签与所述已知实体标签库中的一个已知实体标签相匹配,则确定所匹配的已知实体标签为实体标签的模块;
用于如果所述候选实体标签与所述已知实体标签库中的任何已知实体标签都不匹配,则将所述候选实体标签与已知停用词库中的多个已知停用词进行匹配的模块;以及
用于如果所述候选实体标签与所述已知停用词库中的一个或多个已知停用词相匹配,则从所述候选实体标签中去除所述一个或多个已知停用词以确定所述实体标签的模块。
10.如权利要求9所述的装置,进一步包括,
用于如果所述候选实体标签与已知实体标签库中的一个已知实体标签相匹配,则从所述候选实体标签中去除所述实体标签以获得一个或多个新增停用词的模块;以及
用于将所述一个或多个新增停用词存储在所述已知停用词库中的模块。
11.如权利要求9所述的装置,进一步包括,
用于如果所述候选实体标签与所述已知停用词库中的一个或多个已知停用词相匹配,则将所确定的实体标签存储在所述已知实体标签库中的模块。
12.如权利要求9所述的装置,进一步包括,
用于将用户输入文本输入到经训练的二分类模型中以确定所述用户输入文本的置信度的模块;
用于如果所述用户输入文本的置信度大于或等于阈值,则确定所述用户输入文本是实体名称的模块;以及
用于如果所述用户输入文本的置信度小于阈值,则确定所述用户输入文本不是实体名称的模块。
13.如权利要求12所述的装置,进一步包括:
用于根据实体的一个或多个特征来确定所述实体的实体名称为正样本还是负样本的模块;
用于使用实体名称的正样本和负样本对所述二分类模型进行训练的模块;以及
其中所述一个或多个特征包括所述实体的历史交易量和所述实体的历史信用分数。
14.如权利要求9所述的装置,其中用于从实体名称中去除一个或多个冗余词语以获得候选实体标签包括:
用于使用命名实体识别(NER)模型将所述实体名称划分为多个词语并确定所述多个词语中的一个或多个冗余词语的模块;以及
用于从所述实体名称中去除所述一个或多个冗余词语以获得所述候选实体标签的模块。
15.如权利要求9所述的装置,进一步包括,
用于按照字符长度将与一实体相关联的多个实体标签划分为多个实体标签子集的模块;
用于将所述多个实体标签子集彼此进行匹配得到所述多个实体标签的归一化实体标签的模块;以及
用于将所述归一化实体标签存储在所述已知实体标签库中的模块。
16.如权利要求9所述的装置,其中所述实体名称包括商户名称,并且所述实体标签包括品牌词。
17.一种实体标签确定装置,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
获取实体名称;
从所述实体名称中去除一个或多个冗余词语以获得候选实体标签;
将所述候选实体标签与已知实体标签库中的多个已知实体标签进行匹配;
如果所述候选实体标签与所述已知实体标签库中的一个已知实体标签相匹配,则确定所匹配的已知实体标签为实体标签;
如果所述候选实体标签与所述已知实体标签库中的任何已知实体标签都不匹配,则将所述候选实体标签与已知停用词库中的多个已知停用词进行匹配;以及
如果所述候选实体标签与所述已知停用词库中的一个或多个已知停用词相匹配,则从所述候选实体标签中去除所述一个或多个已知停用词以确定所述实体标签。
CN202210621182.9A 2022-06-02 2022-06-02 实体标签确定方法和装置 Pending CN115114922A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210621182.9A CN115114922A (zh) 2022-06-02 2022-06-02 实体标签确定方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210621182.9A CN115114922A (zh) 2022-06-02 2022-06-02 实体标签确定方法和装置

Publications (1)

Publication Number Publication Date
CN115114922A true CN115114922A (zh) 2022-09-27

Family

ID=83326852

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210621182.9A Pending CN115114922A (zh) 2022-06-02 2022-06-02 实体标签确定方法和装置

Country Status (1)

Country Link
CN (1) CN115114922A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116720944A (zh) * 2023-08-10 2023-09-08 山景智能(北京)科技有限公司 银行流水打标方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116720944A (zh) * 2023-08-10 2023-09-08 山景智能(北京)科技有限公司 银行流水打标方法及装置
CN116720944B (zh) * 2023-08-10 2023-12-19 山景智能(北京)科技有限公司 银行流水打标方法及装置

Similar Documents

Publication Publication Date Title
CN108959258B (zh) 一种基于表示学习的特定领域集成实体链接方法
CN110705286A (zh) 一种基于评论信息的数据处理方法及装置
CN112380349A (zh) 商品性别分类方法、装置及电子设备
CN111143571B (zh) 实体标注模型的训练方法、实体标注方法以及装置
CN110413998B (zh) 一种面向电力行业的自适应中文分词方法及其系统、介质
CN112364628B (zh) 一种新词识别方法、装置、电子设备及存储介质
CN110928981A (zh) 一种文本标签体系搭建及完善迭代的方法、系统及存储介质
CN107515849A (zh) 一种成词判定模型生成方法、新词发现方法及装置
CN110750646B (zh) 一种旅店评论文本的属性描述提取方法
CN109191335B (zh) 一种专利交易中潜在买方的自动匹配方法
CN112395881A (zh) 物料标签的构建方法、装置、可读存储介质及电子设备
CN111782793A (zh) 智能客服处理方法和系统及设备
CN105068986B (zh) 基于双向迭代和自动构建更新语料库的垃圾评论过滤方法
CN115146062A (zh) 融合专家推荐与文本聚类的智能事件分析方法和系统
CN115114922A (zh) 实体标签确定方法和装置
CN115858773A (zh) 适用于长文档的关键词挖掘方法、装置及介质
CN111125443A (zh) 一种基于自动去重的试题题库在线更新方法
Oo et al. An analysis of ambiguity detection techniques for software requirements specification (SRS)
CN114265931A (zh) 基于大数据文本挖掘的消费者政策感知分析方法及系统
CN110287495A (zh) 一种电力营销专业词识别方法及系统
CN113837824A (zh) 信息推送方法及其系统
CN111753547B (zh) 一种用于敏感数据泄露检测的关键词提取方法及系统
CN113177121A (zh) 文本主题分类方法、装置、电子设备以及存储介质
US11915157B2 (en) Computerized method of training a computer executed model for recognizing numerical quantities
CN110717029A (zh) 一种信息处理方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination