CN109614481A - 对象识别方法、装置、电子设备及计算机可读存储介质 - Google Patents

对象识别方法、装置、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN109614481A
CN109614481A CN201811152505.4A CN201811152505A CN109614481A CN 109614481 A CN109614481 A CN 109614481A CN 201811152505 A CN201811152505 A CN 201811152505A CN 109614481 A CN109614481 A CN 109614481A
Authority
CN
China
Prior art keywords
term vector
textual information
relevant textual
training
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811152505.4A
Other languages
English (en)
Inventor
张林江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811152505.4A priority Critical patent/CN109614481A/zh
Publication of CN109614481A publication Critical patent/CN109614481A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Finance (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Accounting & Taxation (AREA)
  • General Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)

Abstract

本公开实施例公开了一种对象识别方法、装置、电子设备及计算机可读存储介质,所述方法包括:获取相关文本信息;其中,所述相关文本信息包括未知对象的第一文本信息和已知对象的第二文本信息;利用第一预设词库识别所述相关文本信息中出现的第一新词;在不拆分所述第一新词的前提下,对相关文本信息进行分词处理;将分词处理后的所述相关文本信息输入至词向量生成模型进行训练,在训练完成后根据所述词向量生成模型的训练结果对所述未知对象进行识别。本公开实施例能够从相关文本信息识别出未知对象的变种关键词,进而能够正确识别出未知对象。

Description

对象识别方法、装置、电子设备及计算机可读存储介质
技术领域
本公开涉及计算机技术领域,具体涉及一种对象识别方法、装置、电子设备及计算机可读存储介质。
背景技术
随着互联网技术的发展,各种各样的应用平台应运而生,同时也出现了不少不发分子利用互联网技术的一些漏洞规则进行一些违法犯罪活动。例如,目前现金贷等无抵押贷款十分火爆,引起不法分子利用漏洞规则进行套现等违法犯罪活动。蚂蚁花呗、京东白条等是目前十分普遍的套现产品,其原理是一个虚假卖家发布虚拟商品,买家用花呗支付,商家提成10%。这种虚拟商品在电商平台上十分普遍。为了打击这种现象,传统的方法是通过文字检索识别虚假商品,但是现在很多虚假卖家会进行隐蔽工程,将虚假商品进行伪装,比如改变商品名称,将商品名称变为拼音等其他别名,或者利用图片式文字对虚假商品进行描述。而传统的方式对这类现象无法识别,因此需要一种更好的识别方法来进行虚假商品的识别。
发明内容
本公开实施例提供一种对象识别方法、装置、电子设备及计算机可读存储介质。
第一方面,本公开实施例中提供了一种对象识别方法。
具体的,所述对象识别方法,包括:
获取相关文本信息;其中,所述相关文本信息包括未知对象的第一文本信息和已知对象的第二文本信息;
利用第一预设词库识别所述相关文本信息中出现的第一新词;
在不拆分所述第一新词的前提下,对相关文本信息进行分词处理;
将分词处理后的所述相关文本信息输入至词向量生成模型进行训练,在训练完成后根据所述词向量生成模型的训练结果对所述未知对象进行识别。
结合第一方面,本公开在第一方面的第一种实现方式中,获取相关文本信息之后,还包括:
对所述相关文本信息进行预处理,并对预处理后的所述相关文本信息进行语义分割。
结合第一方面,本公开在第一方面的第二种实现方式中,所述已知对象和/或未知对象为系统平台上发布的虚拟对象;
所述获取相关文本信息,包括:
获取所述虚拟对象在所述系统平台上的发布内容和/或用户评论;
根据所述发布内容和/或用户评论确定所述相关文本信息。
结合第一方面、第一方面的第一种实现方式或第一方面的第二种实现方式,本公开在第一方面的第三种实现方式中,将分词处理后的所述相关文本信息输入至词向量生成模型进行训练,在训练完成后根据所述词向量生成模型的训练结果对所述未知对象进行识别,包括:
根据训练完成后所述词向量生成模型输出的结果获取所述第一文本信息对应的至少一个第一词向量和所述第二文本信息对应的至少一个第二词向量;
根据所述第一词向量与第二词向量之间的相似度对所述未知对象进行识别。
结合第一方面的第三种实现方式,本公开在第一方面的第四种实现方式中,根据训练完成后所述词向量生成模型输出的结果获取所述第一文本信息对应的至少一个第一词向量和所述第二文本信息对应的至少一个第二词向量,包括:
根据训练完成后所述词向量生成模型输出的结果获取所述第一文本信息对应的多个第一词向量构成的词向量矩阵;
根据训练完成后所述词向量生成模型输出的结果获取所述已知对象的关键词汇对应的第二词向量;其中,所述关键词汇包含在所述第二文本信息中。
结合第一方面的第四种实现方式,本公开在第一方面的第五种实现方式中,根据所述第一词向量与第二词向量之间的相似度对所述未知对象进行识别,包括:
确定所述第二词向量与所述词向量矩阵的相似度,并确定所述未知对象是否为已知对象。
第二方面,本公开实施例提供了一种对象识别装置,包括:
获取模块,被配置为获取相关文本信息;其中,所述相关文本信息包括未知对象的第一文本信息和已知对象的第二文本信息;
新词识别模块,被配置为利用第一预设词库识别所述相关文本信息中出现的第一新词;
分词模块,被配置为在不拆分所述第一新词的前提下,对相关文本信息进行分词处理;
对象识别模块,被配置为将分词处理后的所述相关文本信息输入至词向量生成模型进行训练,在训练完成后根据所述词向量生成模型的训练结果对所述未知对象进行识别。
结合第二方面,本公开在第二方面的第一种实现方式中,所述获取模块之后,还包括:
预处理模块,被配置为对所述相关文本信息进行预处理,并对预处理后的所述相关文本信息进行语义分割。
结合第二方面,本公开在第二方面的第二种实现方式中,所述已知对象和/或未知对象为系统平台上发布的虚拟对象;
所述获取模块,包括:
第一获取子模块,被配置为获取所述虚拟对象在所述系统平台上的发布内容和/或用户评论;
第一确定子模块,被配置为根据所述发布内容和/或用户评论确定所述相关文本信息。
结合第二方面、第二方面的第一种实现方式或第二方面的第二种实现方式,本公开在第二方面的第三种实现方式中,所述对象识别模块,包括:
第二获取子模块,被配置为根据训练完成后所述词向量生成模型输出的结果获取所述第一文本信息对应的至少一个第一词向量和所述第二文本信息对应的至少一个第二词向量;
识别子模块,被配置为根据所述第一词向量与第二词向量之间的相似度对所述未知对象进行识别。
结合第二方面的第三种实现方式,本公开在第二方面的第四种实现方式中,所述第二获取子模块,包括:
第三获取子模块,被配置为根据训练完成后所述词向量生成模型输出的结果获取所述第一文本信息对应的多个第一词向量构成的词向量矩阵;
第四获取子模块,被配置为根据训练完成后所述词向量生成模型输出的结果获取所述已知对象的关键词汇对应的第二词向量;其中,所述关键词汇包含在所述第二文本信息中。
结合第二方面的第四种实现方式,本公开在第二方面的第五种实现方式中,所述识别子模块,包括:
第二确定子模块,被配置为确定所述第二词向量与所述词向量矩阵的相似度,并确定所述未知对象是否为已知对象。
所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,对象识别装置的结构中包括存储器和处理器,所述存储器用于存储一条或多条支持对象识别装置执行上述第一方面中对象识别方法的计算机指令,所述处理器被配置为用于执行所述存储器中存储的计算机指令。所述对象识别装置还可以包括通信接口,用于对象识别装置与其他设备或通信网络通信。
第三方面,本公开实施例提供了一种电子设备,包括存储器和处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现第一方面所述的方法步骤。
第四方面,本公开实施例提供了一种计算机可读存储介质,用于存储对象识别装置所用的计算机指令,其包含用于执行上述第一方面中对象识别方法所涉及的计算机指令。
本公开实施例提供的技术方案可以包括以下有益效果:
本公开实施例在获取了相关文本信息后,利用第一预设词库识别出相关文本信息中出现的第一新词,并在确保不拆分第一新词的前提下,对相关文本信息进行分词处理,分词处理后的相关文本信息输入至预先训练好的词向量生成模型,并根据词向量生成模型输出的结果确定与所述未知对象相关的已知对象。通过这种方式,在对相关文本信息进行词向量识别之前,先从中识别出新词,以防止通过分词处理将这些新词给拆分开来,导致相关文本信息没有按照常规用词对未知对象进行描述的情况下,无法正确识别出未知对象的问题,本公开实施例能够从相关文本信息识别出未知对象的变种关键词,进而能够正确识别出未知对象。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
结合附图,通过以下非限制性实施方式的详细描述,本公开的其它特征、目的和优点将变得更加明显。在附图中:
图1示出根据本公开一实施方式的对象识别方法的流程图;
图2示出根据图1所示实施方式的步骤S101的流程图;
图3示出根据图1所示实施方式的步骤S104的流程图;
图4示出根据图3所示实施方式的步骤S301的流程图;
图5示出根据本公开一实施方式的对象识别装置的结构框图;
图6示出根据图5所示实施方式的获取模块501的结构框图;
图7示出根据图5所示实施方式的对象识别模块504的结构框图;
图8示出根据图7所示实施方式的第二获取子模块701的结构框图;
图9是适于用来实现根据本公开一实施方式的对象识别方法的电子设备的结构示意图。
具体实施方式
下文中,将参考附图详细描述本公开的示例性实施方式,以使本领域技术人员可容易地实现它们。此外,为了清楚起见,在附图中省略了与描述示例性实施方式无关的部分。
在本公开中,应理解,诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。
另外还需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
图1示出根据本公开一实施方式的对象识别方法的流程图。如图1所示,所述对象识别方法包括以下步骤S101-S104:
在步骤S101中,获取相关文本信息;其中,所述相关文本信息包括未知对象的第一文本信息和已知对象的第二文本信息;
在步骤S102中,利用第一预设词库识别所述相关文本信息中出现的第一新词;
在步骤S103中,在不拆分所述第一新词的前提下,对相关文本信息进行分词处理;
在步骤S104中,将分词处理后的所述相关文本信息输入至词向量生成模型进行训练,在训练完成后根据所述词向量生成模型的训练结果对所述未知对象进行识别。
本实施例中,未知对象和已知对象为同类型的对象,可以是任何具有文字和/或图像等描述信息的实体对象或虚拟对象,且未知对象和已知对象能够通过这些描述信息进行识别。未知对象和已知对象既可以是虚拟对象,也可以是实体对象,例如互联网系统平台中发布的商品等虚拟对象,或者具有文字说明的电子产品、生活用品等实体对象。第一文本信息可以是与虚拟的未知对象一起在互联网上直接发布或间接获取(例如通过与该未知对象的发布链接相关联的链接获取)的文字和/或图像信息,例如电商平台中发布的商品的标题、详细说明以及用户对该商品的评论等。第二文本信息也可以是在实体对象的标签、商标、包装、说明书等上的文字说明,也可以是与虚拟对象一起在互联网上直接发布或间接获取(例如通过与该未知对象的发布链接相关联的链接获取)的文字和/或图像信息。未知对象是还为被识别的对象,而已知对象为已经被识别了,确定其品牌、真实性及其他属性的对象。在互联网上发布的未知对象的相关描述可以是文字描述,还可以是带有文字性说明的图像等,如果是图像,则可以通过图像识别技术从图像中识别出文字信息的方式得到第一文本信息。第一文本信息和第二文本信息可以是一个词、一句话、一段文字描述等。相关文本信息是通过将第一文本信息和第二文本信息进行语料混合得到的。也即通过不同方式和/或不同位置得到的已知对象和未知对象的不同文本信息可以被混合成一段语料,以便后续对其进行相应处理。
在一实施例中,第一预设词库可以是预先设置好的、理论上包括所有已知词的词库。在另一实施例中,第一预设词库也可以是针对未知对象和已知对象所在应用领域预先设置好的、包括该应用领域内所有可能描述未知对象和已知对象的已知词的词库。第一预设词库可根据实际情况设置,在此不做限制。
本实施例中,可以通过将相关文本信息与第一预设词库中的词进行匹配的方式识别第一新词,如果相关文本信息中存在与第一预设词库中的任何词都不匹配的词,则可以认为相关文本信息中存在第一新词,并将该第一新词记录下来。例如,电商平台中发布的商品标题为“李家牛仔裤”,第一预设词库由于是商品名称以及相关分词构成的,其中并不包括“李家”这一分词,因此可以识别出“李家”为第一新词。
本实施例中,在对相关文本信息进行分词处理时,可以采用现有的分词处理方法进行分词。分词的目的是将相关文本信息划分成独立的多个词汇,这些词汇之间依然保持相关文本信息中的顺序关系。例如,相关文本信息为“性价比很高的,质量很是值得信赖,宝贝非常棒”,经过分词处理后得到“性价比很高的,质量很是值得信赖,宝贝非常棒”,各个词汇之间使用相应符号例如空格符进行了分隔,这样在输入至词向量生成模型时,词向量生成模型能够针对当前词上下文中这些独立的词输出当前词的词向量。本实施例中,可以通过对相关文本信息进行了分词处理后,恢复第一新词的方式,也可以通过对现有的分词算法进行改进,使得分词算法不对第一新词进行拆分,保证第一新词不被划分成不同的词。一些采用非常规用语描述的未知对象,识别其的关键在于第一文本信息中出现的第一新词,在识别出了第一新词的情况下,未知对象也就能够识别出来了。但是由于第一新词不是常规意义上也即不是公认的已知词汇,分词算法会将这类新词划分成不同的词汇,因此本公开实施例通过先识别相关文本信息中的第一新词,并保证分词的时候出现的第一新词不被拆分,使得词向量生成模型能够给出第一新词的词向量,能够提高未知对象的识别准确率。
本实施例中,预先训练好的词向量生成模型能够基于输入的相关文本信息中各个分词处理后得到的词汇以及词汇之间的先后顺序等,从各个词汇的上下文语义上给出对应的词向量。本公开实施例中可以选择word2vec进行词向量生成模型的训练。利用相关文本信息中的词汇对词向量生成模型训练的过程中,每次训练的输入是从相关文本信息中选出某一个词上下文中的一个或多个词,并将这一个或多个词作为词向量生成模型的输入,而期望词向量生成模型能够输出该某一个词,当然输入和输出的形式都是词向量的形式。基于这个原理,可以通过设置迭代次数、滑动窗口(用于定义上下文中的那几个词)、词向量的维度以及目标函数等,利用相关文本信息对词向量生成模型进行训练,在训练完成后词向量生成模型会得到相关文本信息中所有词汇的词向量。利用word2vec得到的词向量为分布式表达,每个词向量与训练文本中上下文相关,同一个词汇处于不同训练文本,所得到的词向量可能不同。通过词向量之间的距离长短可以确定对应词汇之间的相近程度,因此本公开实施例将已知对象和未知对象的文本信息作为训练语料输入至词向量生成模型,最终得到文本信息中各个词汇的词向量,而这些词向量之间都是具有上下文语义关系的,且已知对象和未知对象的词向量都属于同一个向量空间,因此可以通过描述已知对象和未知对象的词汇的词向量来识别未知对象,且识别率准确较高。
本公开实施例在获取了已知对象和未知对象的相关文本信息后,利用第一预设词库识别出相关文本信息中出现的第一新词,并在确保不拆分第一新词的前提下,对相关文本信息进行分词处理,分词处理后的相关文本信息输入至预先训练好的词向量生成模型,并根据词向量生成模型输出的结果识别所述未知对象。通过这种方式,在对已知对象和未知对象的相关文本信息进行词向量识别之前,先从中识别出新词,以防止通过分词处理将这些新词给拆分开来,导致相关文本信息没有按照常规用词对未知对象进行描述的情况下,无法正确识别出未知对象的问题,本公开实施例能够从相关文本信息识别出未知对象的变种关键词,进而能够正确识别出未知对象;同时本公开还将已知对象和未知对象的文本信息作为同一段语料输入至词向量生成模型,使得描述已知对象和未知对象的词汇的词向量位于同一向量文件,进一步提高了识别准确率。
在本实施例的一个可选实现方式中,所述步骤S101,即获取相关文本信息的步骤之后,进一步包括以下步骤:
对所述相关文本信息进行预处理,并对预处理后的所述相关文本信息进行语义分割。
该可选的实现方式中,在对相关文本信息进行第一新词的识别之前进行预处理,例如对相关文本信息进行清洗,包括繁体变简体,全角变半角、去掉、高频无用词、标点符号等等。并在预处理以后对相关文本信息进行语义分割,以将相关文本信息将文本切割成每一行一句话或者一个主题。经过预处理和语义切割的相关文本信息中仅包括有用词,并且其中不包含无法被新词识别算法和/或词向量生成模型识别的表达式,将相关文本信息进行语义分割是为了使得词向量能够基于相关的上下文准确识别相关文本信息中各个分词的词向量。
在本实施例的一个可选实现方式中,如图2所示,所述已知对象和/或未知对象为系统平台上发布的虚拟对象;所述步骤S101,即获取相关文本信息的步骤,进一步包括以下步骤S201-S202:
在步骤S201中,获取所述虚拟对象在所述系统平台上的发布内容和/或用户评论;
在步骤S202中,根据所述的发布内容和/或用户评论确定所述相关文本信息。
该可选的实现方式中,已知对象和未知对象为系统平台如电商平台上发布的虚拟对象,可以从虚拟对象的发布页面上获取该虚拟对象对应的标题、详情描述等信息,还可以从用户评论区获取对该虚拟对象的评论信息。虚拟对象的详情描述如果是图片形式的,还可以通过图像识别技术识别图片中的文字信息。将获取的这些文字信息混合成该虚拟对象对应的相关文本信息。本公开这种方式可以适用于识别电商平台发布的一些虚假商品,针对发布者使用别名或者其他未出现过的词汇描述的虚假商品,本公开实施例有很好的识别性能。
在本实施例的一个可选实现方式中,如图3所示,所述步骤S104,即将分词处理后的所述相关文本信息输入至词向量生成模型进行训练,在训练完成后根据所述词向量生成模型的训练结果对所述未知对象进行识别的步骤,进一步包括以下步骤S301-S302:
在步骤S301中,根据训练完成后所述词向量生成模型输出的结果获取所述第一文本信息对应的至少一个第一词向量和所述第二文本信息对应的至少一个第二词向量;
在步骤S302中,根据所述第一词向量与第二词向量之间的相似度对所述未知对象进行识别。
该可选的实现方式中,第一文本信息对应的第一词向量可以包括第一文本信息被分词处理后,得到的一个或多个词汇的词向量。第二文本信息对应的第二词向量可以包括第二文本信息被分词处理后,得到的一个或多个词汇的词向量。词向量生成模型经过相关文本信息训练过后,可以基于相关文本信息的上下文识别出各个词汇对应的词向量。这些词向量位于同一个向量文件,相互之间具有一定的距离,根据该距离可以确定两者之间的相似情况。
在本实施例的一个可选实现方式中,如图4所示,所述步骤S301,即根据训练完成后所述词向量生成模型输出的结果获取所述第一文本信息对应的至少一个第一词向量和所述第二文本信息对应的至少一个第二词向量的步骤,进一步包括以下步骤S401-S402:
在步骤S401中,根据训练完成后所述词向量生成模型输出的结果获取所述第一文本信息对应的多个第一词向量构成的词向量矩阵;
在步骤S402中,根据训练完成后所述词向量生成模型输出的结果获取所述已知对象的关键词汇对应的第二词向量;其中,所述关键词汇包含在所述第二文本信息中。
该可选的实现方式中,由于未知对象是未被识别出来的对象,无法确定通过第一文本信息中的哪个或者哪些词汇能够正确识别出该未知对象,因此可以获取第一文本信息中部分或者所有词汇的词向量,并构成一个词向量矩阵;而由于已知对象是已经被识别出来的对象,因此能够描述其类别或者属性的词汇是已知的,因此可以将这些能够描述其类别或属性等的词汇作为关键词,从训练好的词向量生成模型中得到对应的词向量。已知对象的关键词可以包括但不限于已知对象的通用名和别名。
在本实施例的一个可选实现方式中,所述步骤S302,即根据所述第一词向量与第二词向量之间的相似度对所述未知对象进行识别的步骤,进一步包括以下步骤:
确定所述第二词向量与所述词向量矩阵的相似度,并确定所述未知对象是否为已知对象。
该可选的实现方式中,在确定了已知对象的关键词对应的第二词向量与未知对象对应的词向量矩阵后,根据第二词向量与词向量矩阵之间的相似度,最终可以确定出与未知对象相似的已知对象。在一实施例中,已知对象的关键词可以包括但不限于已知对象的通用名或别名。因此通过比较已知对象的通用名或别名与未知对象的描述词汇之间的相似度,能够识别出未知对象与已知对象的关联关系。通过这种方式,即使未知对象的发布者采用何种变形关键词来描述,也能够准确识别出该未知对象。
下面以Word2Vec为例说明词向量生成模型的训练过程:
Word2Vec常用的两种训练模型包括CBOW(Continuous Bag-of-Words Model)和Skip-gram(Continuous Skip-gram Model)。
以CBOW为例,首先将一个分词所在的上下文中的词作为输入,例如,首先设定具有固定长度的滑动窗口,从相关文本信息中的第一个词汇开始,将该滑动窗口内的词汇作为当前词汇的上下文输入至词向量生成模型中,将当前词汇本身作为输出,从原理上讲,就是看到一个词汇的上下文,希望大概能猜出这个分词的意思。根据上述原理,利用第二相关信息文本不断对词向量生成模型进行训练,在训练开始时,将输入词向量、输出词向量和词向量生成模型从输入层到隐含层的模型参数进行初始化,训练过程中利用预先建立好的更新方式不断地修改输入词向量、输出词向量和词向量生成模型从输入层到隐含层的模型参数,直到训练次数达到预定次数或者达到收敛条件,则可以停止训练,训练完成后,得到了词训练生成模型从输入层到隐含层的模型参数以及训练语料中所有词汇的词向量。例如,分词处理后的相关文本信息包括6个词,第4个词的上下文词是第1、2、3个词,本次训练时将第1、2、3作为输入,第4个词作为标签形成一个训练样本,利用这个训练样本训练词向量生成模型时,先设定词向量生成模型的模型参数初始值、这三个输入词向量的初始值以及输出词向量的初始值,并使用模型参数更新方式和词向量更新方式对模型参数、输入词向量和输出词向量进行更新,在更新的过程中会利用上述6个词建立的霍夫曼编码树,具体可参见word2rec中CBOW的训练过程,在此不再赘述。训练完成后,就得到了词向量生成模型的模型参数以及上述6个词的词向量。词向量生成模型不限于上述word2rec工具以及所使用的CBOW(Continuous Bag-of-Words Model)和Skip-gram(Continuous Skip-gram Model),只要是能够根据文本信息生成词汇的词向量也即分布式表达即可,具体根据实际情况选择,在此不做限制。
下述为本公开装置实施例,可以用于执行本公开方法实施例。
图5示出根据本公开一实施方式的对象识别装置的结构框图,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图5所示,所述对象识别装置包括获取模块501、新词识别模块502、分词模块503和对象识别模块504:
获取模块501,被配置为获取相关文本信息;其中,所述相关文本信息包括未知对象的第一文本信息和已知对象的第二文本信息;
新词识别模块502,被配置为利用第一预设词库识别所述相关文本信息中出现的第一新词;
分词模块503,被配置为在不拆分所述第一新词的前提下,对相关文本信息进行分词处理;
对象识别模块504,被配置为将分词处理后的所述相关文本信息输入至词向量生成模型进行训练,在训练完成后根据所述词向量生成模型的训练结果对所述未知对象进行识别。
本实施例中,未知对象和已知对象为同类型的对象,可以是任何具有文字和/或图像等描述信息的实体对象或虚拟对象,且未知对象和已知对象能够通过这些描述信息进行识别。未知对象和已知对象既可以是虚拟对象,也可以是实体对象,例如互联网系统平台中发布的商品等虚拟对象,或者具有文字说明的电子产品、生活用品等实体对象。第一文本信息可以是与虚拟的未知对象一起在互联网上直接发布或间接获取(例如通过与该未知对象的发布链接相关联的链接获取)的文字和/或图像信息,例如电商平台中发布的商品的标题、详细说明以及用户对该商品的评论等。第二文本信息也可以是在实体对象的标签、商标、包装、说明书等上的文字说明,也可以是与虚拟对象一起在互联网上直接发布或间接获取(例如通过与该未知对象的发布链接相关联的链接获取)的文字和/或图像信息。未知对象是还为被识别的对象,而已知对象为已经被识别了,确定其品牌、真实性及其他属性的对象。在互联网上发布的未知对象的相关描述可以是文字描述,还可以是带有文字性说明的图像等,如果是图像,则可以通过图像识别技术从图像中识别出文字信息的方式得到第一文本信息。第一文本信息和第二文本信息可以是一个词、一句话、一段文字描述等。相关文本信息是通过将第一文本信息和第二文本信息进行语料混合得到的。也即通过不同方式和/或不同位置得到的已知对象和未知对象的不同文本信息可以被混合成一段语料,以便后续对其进行相应处理。
在一实施例中,第一预设词库可以是预先设置好的、理论上包括所有已知词的词库。在另一实施例中,第一预设词库也可以是针对未知对象和已知对象所在应用领域预先设置好的、包括该应用领域内所有可能描述未知对象和已知对象的已知词的词库。第一预设词库可根据实际情况设置,在此不做限制。
本实施例中,可以通过将相关文本信息与第一预设词库中的词进行匹配的方式识别第一新词,如果相关文本信息中存在与第一预设词库中的任何词都不匹配的词,则可以认为相关文本信息中存在第一新词,并将该第一新词记录下来。例如,电商平台中发布的商品标题为“李家牛仔裤”,第一预设词库由于是商品名称以及相关分词构成的,其中并不包括“李家”这一分词,因此可以识别出“李家”为第一新词。
本实施例中,在对相关文本信息进行分词处理时,可以采用现有的分词处理方法进行分词。分词的目的是将相关文本信息划分成独立的多个词汇,这些词汇之间依然保持相关文本信息中的顺序关系。例如,相关文本信息为“性价比很高的,质量很是值得信赖,宝贝非常棒”,经过分词处理后得到“性价比很高的,质量很是值得信赖,宝贝非常棒”,各个词汇之间使用相应符号例如空格符进行了分隔,这样在输入至词向量生成模型时,词向量生成模型能够针对当前词上下文中这些独立的词输出当前词的词向量。本实施例中,可以通过对相关文本信息进行了分词处理后,恢复第一新词的方式,也可以通过对现有的分词算法进行改进,使得分词算法不对第一新词进行拆分,保证第一新词不被划分成不同的词。一些采用非常规用语描述的未知对象,识别其的关键在于第一文本信息中出现的第一新词,在识别出了第一新词的情况下,未知对象也就能够识别出来了。但是由于第一新词不是常规意义上也即不是公认的已知词汇,分词算法会将这类新词划分成不同的词汇,因此本公开实施例通过先识别相关文本信息中的第一新词,并保证分词的时候出现的第一新词不被拆分,使得词向量生成模型能够给出第一新词的词向量,能够提高未知对象的识别准确率。
本实施例中,预先训练好的词向量生成模型能够基于输入的相关文本信息中各个分词处理后得到的词汇以及词汇之间的先后顺序等,从各个词汇的上下文语义上给出对应的词向量。本公开实施例中可以选择word2vec进行词向量生成模型的训练。利用相关文本信息中的词汇对词向量生成模型训练的过程中,每次训练的输入是从相关文本信息中选出某一个词上下文中的一个或多个词,并将这一个或多个词作为词向量生成模型的输入,而期望词向量生成模型能够输出该某一个词,当然输入和输出的形式都是词向量的形式。基于这个原理,可以通过设置迭代次数、滑动窗口(用于定义上下文中的那几个词)、词向量的维度以及目标函数等,利用相关文本信息对词向量生成模型进行训练,在训练完成后词向量生成模型会得到相关文本信息中所有词汇的词向量。利用word2vec得到的词向量为分布式表达,每个词向量与训练文本中上下文相关,同一个词汇处于不同训练文本,所得到的词向量可能不同。通过词向量之间的距离长短可以确定对应词汇之间的相近程度,因此本公开实施例将已知对象和未知对象的文本信息作为训练语料输入至词向量生成模型,最终得到文本信息中各个词汇的词向量,而这些词向量之间都是具有上下文语义关系的,且已知对象和未知对象的词向量都属于同一个向量空间,因此可以通过描述已知对象和未知对象的词汇的词向量来识别未知对象,且识别率准确较高。
本公开实施例在获取了已知对象和未知对象的相关文本信息后,利用第一预设词库识别出相关文本信息中出现的第一新词,并在确保不拆分第一新词的前提下,对相关文本信息进行分词处理,分词处理后的相关文本信息输入至预先训练好的词向量生成模型,并根据词向量生成模型输出的结果识别所述未知对象。通过这种方式,在对已知对象和未知对象的相关文本信息进行词向量识别之前,先从中识别出新词,以防止通过分词处理将这些新词给拆分开来,导致相关文本信息没有按照常规用词对未知对象进行描述的情况下,无法正确识别出未知对象的问题,本公开实施例能够从相关文本信息识别出未知对象的变种关键词,进而能够正确识别出未知对象;同时本公开还将已知对象和未知对象的文本信息作为同一段语料输入至词向量生成模型,使得描述已知对象和未知对象的词汇的词向量位于同一向量文件,进一步提高了识别准确率。
在本实施例的一个可选实现方式中,所述获取模块501之后,还包括:
预处理模块,被配置为对所述相关文本信息进行预处理,并对预处理后的所述相关文本信息进行语义分割。
该可选的实现方式中,在对相关文本信息进行第一新词的识别之前进行预处理,例如对相关文本信息进行清洗,包括繁体变简体,全角变半角、去掉、高频无用词、标点符号等等。并在预处理以后对相关文本信息进行语义分割,以将相关文本信息将文本切割成每一行一句话或者一个主题。经过预处理和语义切割的相关文本信息中仅包括有用词,并且其中不包含无法被新词识别算法和/或词向量生成模型识别的表达式,将相关文本信息进行语义分割是为了使得词向量能够基于相关的上下文准确识别相关文本信息中各个分词的词向量。
在本实施例的一个可选实现方式中,如图6所示,所述已知对象和/或未知对象为系统平台上发布的虚拟对象;
所述获取模块501,包括:
第一获取子模块601,被配置为获取所述虚拟对象在所述系统平台上的发布内容和/或用户评论;
第一确定子模块602,被配置为根据所述发布内容和/或用户评论确定所述相关文本信息。
该可选的实现方式中,已知对象和未知对象为系统平台如电商平台上发布的虚拟对象,可以从虚拟对象的发布页面上获取该虚拟对象对应的标题、详情描述等信息,还可以从用户评论区获取对该虚拟对象的评论信息。虚拟对象的详情描述如果是图片形式的,还可以通过图像识别技术识别图片中的文字信息。将获取的这些文字信息混合成该虚拟对象对应的相关文本信息。本公开这种方式可以适用于识别电商平台发布的一些虚假商品,针对发布者使用别名或者其他未出现过的词汇描述的虚假商品,本公开实施例有很好的识别性能。
在本实施例的一个可选实现方式中,如图7所示,所述对象识别模块504,包括:
第二获取子模块701,被配置为根据训练完成后所述词向量生成模型输出的结果获取所述第一文本信息对应的至少一个第一词向量和所述第二文本信息对应的至少一个第二词向量;
识别子模块702,被配置为根据所述第一词向量与第二词向量之间的相似度对所述未知对象进行识别。
该可选的实现方式中,第一文本信息对应的第一词向量可以包括第一文本信息被分词处理后,得到的一个或多个词汇的词向量。第二文本信息对应的第二词向量可以包括第二文本信息被分词处理后,得到的一个或多个词汇的词向量。词向量生成模型经过相关文本信息训练过后,可以基于相关文本信息的上下文识别出各个词汇对应的词向量。这些词向量位于同一个向量文件,相互之间具有一定的距离,根据该距离可以确定两者之间的相似情况。
在本实施例的一个可选实现方式中,如图8所示,所述第二获取子模块701,包括:
第三获取子模块801,被配置为根据训练完成后所述词向量生成模型输出的结果获取所述第一文本信息对应的多个第一词向量构成的词向量矩阵;
第四获取子模块802,被配置为根据训练完成后所述词向量生成模型输出的结果获取所述已知对象的关键词汇对应的第二词向量;其中,所述关键词汇包含在所述第二文本信息中。
该可选的实现方式中,由于未知对象是未被识别出来的对象,无法确定通过第一文本信息中的哪个或者哪些词汇能够正确识别出该未知对象,因此可以获取第一文本信息中部分或者所有词汇的词向量,并构成一个词向量矩阵;而由于已知对象是已经被识别出来的对象,因此能够描述其类别或者属性的词汇是已知的,因此可以将这些能够描述其类别或属性等的词汇作为关键词,从训练好的词向量生成模型中得到对应的词向量。已知对象的关键词可以包括但不限于已知对象的通用名和别名。
在本实施例的一个可选实现方式中,所述识别子模块702,包括:
第二确定子模块,被配置为确定所述第二词向量与所述词向量矩阵的相似度,并确定所述未知对象是否为已知对象。
该可选的实现方式中,在确定了已知对象的关键词对应的第二词向量与未知对象对应的词向量矩阵后,根据第二词向量与词向量矩阵之间的相似度,最终可以确定出与未知对象相似的已知对象。在一实施例中,已知对象的关键词可以包括但不限于已知对象的通用名或别名。因此通过比较已知对象的通用名或别名与未知对象的描述词汇之间的相似度,能够识别出未知对象与已知对象的关联关系。通过这种方式,即使未知对象的发布者采用何种变形关键词来描述,也能够准确识别出该未知对象。
下面以Word2Vec为例说明词向量生成模型的训练过程:
Word2Vec常用的两种训练模型包括CBOW(Continuous Bag-of-Words Model)和Skip-gram(Continuous Skip-gram Model)。
以CBOW为例,首先将一个分词所在的上下文中的词作为输入,例如,首先设定具有固定长度的滑动窗口,从相关文本信息中的第一个词汇开始,将该滑动窗口内的词汇作为当前词汇的上下文输入至词向量生成模型中,将当前词汇本身作为输出,从原理上讲,就是看到一个词汇的上下文,希望大概能猜出这个分词的意思。根据上述原理,利用第二相关信息文本不断对词向量生成模型进行训练,在训练开始时,将输入词向量、输出词向量和词向量生成模型从输入层到隐含层的模型参数进行初始化,训练过程中利用预先建立好的更新方式不断地修改输入词向量、输出词向量和词向量生成模型从输入层到隐含层的模型参数,直到训练次数达到预定次数或者达到收敛条件,则可以停止训练,训练完成后,得到了词训练生成模型从输入层到隐含层的模型参数以及训练语料中所有词汇的词向量。例如,分词处理后的相关文本信息包括6个词,第4个词的上下文词是第1、2、3个词,本次训练时将第1、2、3作为输入,第4个词作为标签形成一个训练样本,利用这个训练样本训练词向量生成模型时,先设定词向量生成模型的模型参数初始值、这三个输入词向量的初始值以及输出词向量的初始值,并使用模型参数更新方式和词向量更新方式对模型参数、输入词向量和输出词向量进行更新,在更新的过程中会利用上述6个词建立的霍夫曼编码树,具体可参见word2rec中CBOW的训练过程,在此不再赘述。训练完成后,就得到了词向量生成模型的模型参数以及上述6个词的词向量。词向量生成模型不限于上述word2rec工具以及所使用的CBOW(Continuous Bag-of-Words Model)和Skip-gram(Continuous Skip-gram Model),只要是能够根据文本信息生成词汇的词向量也即分布式表达即可,具体根据实际情况选择,在此不做限制。
图9是适于用来实现根据本公开实施方式的对象识别方法的电子设备的结构示意图。
如图9所示,电子设备900包括中央处理单元(CPU)901,其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行上述图1所示的实施方式中的各种处理。在RAM903中,还存储有电子设备900操作所需的各种程序和数据。CPU901、ROM902以及RAM903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
以下部件连接至I/O接口905:包括键盘、鼠标等的输入部分906;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907;包括硬盘等的存储部分908;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器910上,以便于从其上读出的计算机程序根据需要被安装入存储部分908。
特别地,根据本公开的实施方式,上文参考图1描述的方法可以被实现为计算机软件程序。例如,本公开的实施方式包括一种计算机程序产品,其包括有形地包含在及其可读介质上的计算机程序,所述计算机程序包含用于执行图1的方法的程序代码。在这样的实施方式中,该计算机程序可以通过通信部分909从网络上被下载和安装,和/或从可拆卸介质911被安装。
附图中的流程图和框图,图示了按照本公开各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施方式中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (14)

1.一种对象识别方法,其特征在于,包括:
获取相关文本信息;其中,所述相关文本信息包括未知对象的第一文本信息和已知对象的第二文本信息;
利用第一预设词库识别所述相关文本信息中出现的第一新词;
在不拆分所述第一新词的前提下,对相关文本信息进行分词处理;
将分词处理后的所述相关文本信息输入至词向量生成模型进行训练,在训练完成后根据所述词向量生成模型的训练结果对所述未知对象进行识别。
2.根据权利要求1所述的对象识别方法,其特征在于,获取相关文本信息之后,还包括:
对所述相关文本信息进行预处理,并对预处理后的所述相关文本信息进行语义分割。
3.根据权利要求1所述的对象识别方法,其特征在于,所述已知对象和/或未知对象为系统平台上发布的虚拟对象;
所述获取相关文本信息,包括:
获取所述虚拟对象在所述系统平台上的发布内容和/或用户评论;
根据所述发布内容和/或用户评论确定所述相关文本信息。
4.根据权利要求1-3任一项所述的对象识别方法,其特征在于,将分词处理后的所述相关文本信息输入至词向量生成模型进行训练,在训练完成后根据所述词向量生成模型的训练结果对所述未知对象进行识别,包括:
根据训练完成后所述词向量生成模型输出的结果获取所述第一文本信息对应的至少一个第一词向量和所述第二文本信息对应的至少一个第二词向量;
根据所述第一词向量与第二词向量之间的相似度对所述未知对象进行识别。
5.根据权利要求4所述的对象识别方法,其特征在于,根据训练完成后所述词向量生成模型输出的结果获取所述第一文本信息对应的至少一个第一词向量和所述第二文本信息对应的至少一个第二词向量,包括:
根据训练完成后所述词向量生成模型输出的结果获取所述第一文本信息对应的多个第一词向量构成的词向量矩阵;
根据训练完成后所述词向量生成模型输出的结果获取所述已知对象的关键词汇对应的第二词向量;其中,所述关键词汇包含在所述第二文本信息中。
6.根据权利要求5所述的对象识别方法,其特征在于,根据所述第一词向量与第二词向量之间的相似度对所述未知对象进行识别,包括:
确定所述第二词向量与所述词向量矩阵的相似度,并确定所述未知对象是否为已知对象。
7.一种对象识别装置,其特征在于,包括:
获取模块,被配置为获取相关文本信息;其中,所述相关文本信息包括未知对象的第一文本信息和已知对象的第二文本信息;
新词识别模块,被配置为利用第一预设词库识别所述相关文本信息中出现的第一新词;
分词模块,被配置为在不拆分所述第一新词的前提下,对相关文本信息进行分词处理;
对象识别模块,被配置为将分词处理后的所述相关文本信息输入至词向量生成模型进行训练,在训练完成后根据所述词向量生成模型的训练结果对所述未知对象进行识别。
8.根据权利要求7所述的对象识别装置,其特征在于,所述获取模块之后,还包括:
预处理模块,被配置为对所述相关文本信息进行预处理,并对预处理后的所述相关文本信息进行语义分割。
9.根据权利要求7所述的对象识别装置,其特征在于,所述已知对象和/或未知对象为系统平台上发布的虚拟对象;
所述获取模块,包括:
第一获取子模块,被配置为获取所述虚拟对象在所述系统平台上的发布内容和/或用户评论;
第一确定子模块,被配置为根据所述发布内容和/或用户评论确定所述相关文本信息。
10.根据权利要求7-9任一项所述的对象识别装置,其特征在于,所述对象识别模块,包括:
第二获取子模块,被配置为根据训练完成后所述词向量生成模型输出的结果获取所述第一文本信息对应的至少一个第一词向量和所述第二文本信息对应的至少一个第二词向量;
识别子模块,被配置为根据所述第一词向量与第二词向量之间的相似度对所述未知对象进行识别。
11.根据权利要求10所述的对象识别装置,其特征在于,所述第二获取子模块,包括:
第三获取子模块,被配置为根据训练完成后所述词向量生成模型输出的结果获取所述第一文本信息对应的多个第一词向量构成的词向量矩阵;
第四获取子模块,被配置为根据训练完成后所述词向量生成模型输出的结果获取所述已知对象的关键词汇对应的第二词向量;其中,所述关键词汇包含在所述第二文本信息中。
12.根据权利要求11所述的对象识别装置,其特征在于,所述识别子模块,包括:
第二确定子模块,被配置为确定所述第二词向量与所述词向量矩阵的相似度,并确定所述未知对象是否为已知对象。
13.一种电子设备,其特征在于,包括存储器和处理器;其中,
所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现权利要求1-6任一项所述的方法步骤。
14.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该计算机指令被处理器执行时实现权利要求1-6任一项所述的方法步骤。
CN201811152505.4A 2018-09-29 2018-09-29 对象识别方法、装置、电子设备及计算机可读存储介质 Pending CN109614481A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811152505.4A CN109614481A (zh) 2018-09-29 2018-09-29 对象识别方法、装置、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811152505.4A CN109614481A (zh) 2018-09-29 2018-09-29 对象识别方法、装置、电子设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN109614481A true CN109614481A (zh) 2019-04-12

Family

ID=66002224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811152505.4A Pending CN109614481A (zh) 2018-09-29 2018-09-29 对象识别方法、装置、电子设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109614481A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110245228A (zh) * 2019-04-29 2019-09-17 阿里巴巴集团控股有限公司 确定文本类别的方法和装置
CN110321552A (zh) * 2019-05-30 2019-10-11 泰康保险集团股份有限公司 词向量构建方法、装置、介质及电子设备
CN110413820A (zh) * 2019-07-12 2019-11-05 深兰科技(上海)有限公司 一种图片描述信息的获取方法及装置
CN111767390A (zh) * 2020-06-28 2020-10-13 北京百度网讯科技有限公司 技能词评估方法及装置、电子设备、计算机可读介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104965819A (zh) * 2015-07-12 2015-10-07 大连理工大学 一种基于句法词向量的生物医学事件触发词识别方法
CN105447206A (zh) * 2016-01-05 2016-03-30 深圳市中易科技有限责任公司 基于word2vec算法的新评论对象识别方法及系统
CN106776543A (zh) * 2016-11-23 2017-05-31 上海智臻智能网络科技股份有限公司 新词发现方法、装置、终端及服务器
CN107515849A (zh) * 2016-06-15 2017-12-26 阿里巴巴集团控股有限公司 一种成词判定模型生成方法、新词发现方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104965819A (zh) * 2015-07-12 2015-10-07 大连理工大学 一种基于句法词向量的生物医学事件触发词识别方法
CN105447206A (zh) * 2016-01-05 2016-03-30 深圳市中易科技有限责任公司 基于word2vec算法的新评论对象识别方法及系统
CN107515849A (zh) * 2016-06-15 2017-12-26 阿里巴巴集团控股有限公司 一种成词判定模型生成方法、新词发现方法及装置
CN106776543A (zh) * 2016-11-23 2017-05-31 上海智臻智能网络科技股份有限公司 新词发现方法、装置、终端及服务器

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110245228A (zh) * 2019-04-29 2019-09-17 阿里巴巴集团控股有限公司 确定文本类别的方法和装置
CN110321552A (zh) * 2019-05-30 2019-10-11 泰康保险集团股份有限公司 词向量构建方法、装置、介质及电子设备
CN110413820A (zh) * 2019-07-12 2019-11-05 深兰科技(上海)有限公司 一种图片描述信息的获取方法及装置
CN111767390A (zh) * 2020-06-28 2020-10-13 北京百度网讯科技有限公司 技能词评估方法及装置、电子设备、计算机可读介质

Similar Documents

Publication Publication Date Title
CN111859960B (zh) 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质
US11238521B2 (en) Text-based similarity system for cold start recommendations
CN109614481A (zh) 对象识别方法、装置、电子设备及计算机可读存储介质
US10102193B2 (en) Information extraction and annotation systems and methods for documents
CN110134931B (zh) 媒介标题生成方法、装置、电子设备及可读介质
US7822701B2 (en) Lexicon generation methods, lexicon generation devices, and lexicon generation articles of manufacture
CN108460014A (zh) 企业实体的识别方法、装置、计算机设备及存储介质
Benchimol et al. Text mining methodologies with R: An application to central bank texts
CN111797898B (zh) 一种基于深度语义匹配的在线评论自动回复方法
CN103577989B (zh) 一种基于产品识别的信息分类方法及信息分类系统
US20140163957A1 (en) Multimedia message having portions of media content based on interpretive meaning
CN110597964A (zh) 一种双录质检语义分析方法、装置及双录质检系统
WO2021046372A1 (en) Complementary item recommendations based on multi-modal embeddings
Gallo et al. Semantic text encoding for text classification using convolutional neural networks
CN109508448A (zh) 基于长篇文章生成短资讯方法、介质、装置和计算设备
JP2006190229A (ja) 意見抽出用学習装置及び意見抽出用分類装置
US20220414400A1 (en) Multi-dimensional language style transfer
US11928418B2 (en) Text style and emphasis suggestions
CN113761114A (zh) 短语生成方法、装置和计算机可读存储介质
CN111563140B (zh) 一种意图识别方法及装置
CN117034948A (zh) 基于多特征自适应融合的段落识别方法、系统及存储介质
CA3166556A1 (en) Method and device for generating target advertorial based on deep learning
Qureshi et al. A simple approach to classify fictional and non-fictional genres
US20230154218A1 (en) Sequence labeling task extraction from inked content
CN109165283A (zh) 资源推荐方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200922

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200922

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20190412

RJ01 Rejection of invention patent application after publication