CN105045909A - 从文本中识别商品名称的方法和装置 - Google Patents

从文本中识别商品名称的方法和装置 Download PDF

Info

Publication number
CN105045909A
CN105045909A CN201510490393.3A CN201510490393A CN105045909A CN 105045909 A CN105045909 A CN 105045909A CN 201510490393 A CN201510490393 A CN 201510490393A CN 105045909 A CN105045909 A CN 105045909A
Authority
CN
China
Prior art keywords
word
trade name
model
text
brand
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510490393.3A
Other languages
English (en)
Other versions
CN105045909B (zh
Inventor
刘佳
石东旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201510490393.3A priority Critical patent/CN105045909B/zh
Publication of CN105045909A publication Critical patent/CN105045909A/zh
Application granted granted Critical
Publication of CN105045909B publication Critical patent/CN105045909B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提供一种从文本中识别商品名称的方法和装置,有助于提高对用于训练模型的语料进行标注的效率,并且提高该模型从文本中识别商品名称的准确性。该方法包括:确定商品库中各个商品名的特征词;对于预先保存的分别与多个商品名相关联的多个文本条目,从各个文本条目中分别确定该文本条目与其所关联的商品名的特征词所共有的字符串;为所述多个文本条目中的每个词分配标记,其中向所述字符串分配用于标示商品名称的专用标记;对分配有标记的所述多个文本条目进行模型训练得到模型,该模型用于对给定文本中的每个词分配所述标记;调用所述模型,对于待处理文本中的每个词分配标记,然后输出该待处理文本中分配有所述专用标记的词。

Description

从文本中识别商品名称的方法和装置
技术领域
本发明涉及计算机技术领域,特别地涉及一种从文本中识别商品名称的方法和装置。
背景技术
目前的电子商务领域中,已经出现自动问答机器人,主要功能是回答用户的各种咨询问题。一般来说,机器人处理用户咨询的问题时可分为两步:第一步是问题预处理,主要是做一些自然语言处理和用户意图识别;第二步是应答处理,包含一些处理的逻辑规则和问答检索。上述两步之后形成问题的回答文本,再将该回答文本提供给用户。
在上述过程中,很重要的一点是识别用户问的是关于哪个商品的问题。例如用户问:“iPhone6plus是双卡双待吗”。此时机器人就需要能够识别“iPhone6plus”是一个商品名。如果识别不出商品名,则无从给出正确的回答。另外,用户咨询的问题中,往往对商品名进行缩写,例如:“有小米4吗?”、“华为P6什么时候有货”等等。当然有些用户也会输入商品名的全称,例如:“请问荣耀6(H60-L11)高配版白色移动4G手机可以用联通卡吗?”、“我看中这个:英琳娜2015夏装上新夏季大码女装连衣裙XH8506蓝色XL能不能再便宜点”等等。对于商品名的全称,机器人也需要能够识别。
目前对于商品名称的机器识别,一种方法是使用规则,采用类似正则匹配的方式去匹配问题中的商品名。具体是先对商品库中的所有商品名建立一棵规则树,然后把对话中的句子,去商品名规则树中搜索匹配,找出匹配的商品名。使用规则的主要缺点包括:
a.需要把所有的商品名都加载到内存中,占用的内存大;
b.匹配的规则比较复杂,占用的处理时间长;
c.商品短名需要人工整理好;
d.不能识别新出现的商品名,或者与商品库中名称稍有变化的商品名。
由于存在上述的不足,所以目前出现另一种识别商品名称的方法,即采用实体识别模型。在这种方法中,把商品名识别问题转换为词序列的命名实体识别(NamedEntityRecognition,简称NER)问题。先标注语料,训练出实体识别模型,线上调用模型识别出问题中的商品名,再调用搜索服务返回商品的skuid。主流的命名实体识别算法都是有监督的学习方法,如HMM、SVM、CRF等。CRF在实际使用过程中速度和准确率都比较好,用得也最多。
CRF是一个序列标注模型,把一个词序列的每个词打上一个标记。在商品名识别这个场景,模型需要标记出商品名的起止位置,有的商品名只有一个词,如“iphone6”,使用WS表示。更多情况是商品名由多个词组成,这时可以用WB表示开始的词,WI表示中间的词,如有多个中间的词,则标注多个WI,WE表示结束,O表示非商品名。前面举的例子,句子“华为AscentP6什么时候有货”,切词之后得到“华为/Ascent/P6/什么时候/有/货”,通过CRF模型给每个词打个标记,分别是WB/WI/WE/O/O/O。得到商品名开始和结束的位置后,识别出商品名“华为AscentP6”。CRF的训练是有监督的,也就是人工把每个词打个标记,人工准备一条条语料,让CRF学习得到模型。
但是采用实体识别模型,仍有一些不足之处,以下简要分析。不管是使用CRF,还是使用HMM、SVM等模型,都是有监督的学习,都依赖语料的标注。按照现有的做法,每训练一个品类的商品名识别模型,都使用了数万条人工标注的数据。而要做全品类商品名识别,需要海量的训练样本,成本很高。而且对于陌生商品品类,人工标注的难度也比较大,人员在做数据标注时,是依靠自身的认识判断来做的,对不熟悉商品可能并不了解。比如用户的输入“联想四核i5机有没有?”,人工在标注时不知道联想电脑有哪些型号,只从字面上看认为“联想四核i5机”是个商品,但实际上“四核i5”不是电脑型号,而是指的电脑的CPU,在这里用户不是输入的某件具体型号商品,而是输入的一个属性条件。因此总的来说,采用人工标注语料的方式一是不准确从而直接影响商品名称识别的准确性,二是效率太低。
发明内容
有鉴于此,本发明提供一种从文本中识别商品名称的方法和装置,有助于提高对用于训练模型的语料进行标注的效率,并且提高该模型从文本中识别商品名称的准确性。
为实现上述目的,根据本发明的一个方面,提供了一种从文本中识别商品名称的方法。
本发明的从文本中识别商品名称的方法包括:确定商品库中各个商品名的特征词;对于预先保存的分别与多个商品名相关联的多个文本条目,从各个文本条目中分别确定该文本条目与其所关联的商品名的特征词所共有的字符串;为所述多个文本条目中的每个词分配标记,其中向所述字符串分配用于标示商品名称的专用标记;对分配有标记的所述多个文本条目进行模型训练得到模型,该模型用于对给定文本中的每个词分配所述标记;调用所述模型,对于待处理文本中的每个词分配标记,然后输出该待处理文本中分配有所述专用标记的词。
可选地,确定商品库中各个商品名的特征词的步骤包括:对商品库中的各个商品名进行切词;对于切词得到的各个词,分别计算其在各品牌中出现的概率,其中计算当前词在当前品牌中出现的概率的公式为:当前词出现在当前品牌的所有商品名中的次数÷当前词出现在所述商品库中的所有商品名中的次数;对于在指定品牌中出现的概率大于预设值并且非品牌词的词以及所述指定品牌的包含该非品牌词的词的商品名,将该非品牌词的词作为该商品名的特征词。
可选地,所述商品库中的商品属于单一品类;在对分配有标记的所述多个文本条目进行模型训练得到模型的步骤之后,还包括:将得到的模型与所述品类对应地保存;所述调用所述模型的步骤包括:确定待处理文本对应的品类,然后调用该品类对应的模型。
可选地,为所述多个文本条目中的每个词分配标记的步骤还包括:为所述多个文本条目中的每个词分配词性标记和/或品牌词标记。
根据本发明的另一方面,提供了一种从文本中识别商品名称的装置。
本发明的从文本中识别商品名称的装置包括:第一确定模块,用于确定商品库中各个商品名的特征词;第二确定模块,用于对于预先保存的分别与多个商品名相关联的多个文本条目,从各个文本条目中分别确定该文本条目与其所关联的商品名的特征词所共有的字符串;标记模块,用于为所述多个文本条目中的每个词分配标记,其中向所述字符串分配用于标示商品名称的专用标记;模型训练模块,用于对分配有标记的所述多个文本条目进行模型训练得到模型,该模型用于对给定文本中的每个词分配所述标记;识别模块,用于调用所述模型,对于待处理文本中的每个词分配标记,然后输出该待处理文本中分配有所述专用标记的词。
可选地,所述第一确定模块还用于:对商品库中的各个商品名进行切词;对于切词得到的各个词,分别计算其在各品牌中出现的概率,其中计算当前词在当前品牌中出现的概率的公式为:当前词出现在当前品牌的所有商品名中的次数÷当前词出现在所述商品库中的所有商品名中的次数;对于在指定品牌中出现的概率大于预设值并且非品牌词的词以及所述指定品牌的包含该非品牌词的词的商品名,将该非品牌词的词作为该商品名的特征词。
可选地,所述第一确定模块还用于确定包含单一品类商品的商品库中各个商品名的特征词;所述装置还包括保存模块,用于将得到的模型与所述品类对应地保存;所述识别模块还用于:确定待处理文本对应的品类,然后调用该品类对应的模型。
可选地,所述标记模块还用于为所述多个文本条目中的每个词分配词性标记和/品牌词标记。
根据本发明的技术方案,对于用于训练模型的语料,利用特征词来识别语料中出现的属于商品名称所专有的字符串,从而实现计算机对于语料中的属于商品名称的字符串添加标记,相比于人工标注语料的方式来说效率得到很大的提高;另外也提高了商品名称识别的准确性。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施方式的从文本中识别商品名称的方法的主要步骤的示意图;
图2是根据本发明实施方式的从文本中识别商品名称的装置的主要模块的示意图;
图3是根据本发明实施方式以及根据现有技术分别得到的商品名识别准确率的示意图。
具体实施方式
以下结合附图对本发明的示范性实施方式做出说明,其中包括本发明实施方式的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施方式做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在本发明的实施方式中,对于完整的商品名,找到能够代表该商品名的特定字符串,在以下的描述中称之为特征码;然后对样本库中的大量用户问题进行标记,使用计算机进行,并且对问题中出现的特征码进行标记,再对标记后的大量用户问题进行模型训练,使得模型具有标记功能,再采用模型对于待处理的用户问题进行标记,标记出的字符串即为该用户问题中的特征码,其对应于商品名,于是就实现了对用户问题中的商品名的识别。以上方式的一种具体步骤示于图1中,图1是根据本发明实施方式的从文本中识别商品名称的方法的主要步骤的示意图。
步骤S11:确定商品库中各个商品名的特征词。
步骤S12:对于预先保存的分别与多个商品名相关联的多个文本条目,从各个文本条目中分别确定该文本条目与其所关联的商品名的特征词所共有的字符串。
步骤S13:为所述多个文本条目中的每个词分配标记,其中向所述字符串分配用于标示商品名称的专用标记。
步骤S14:对分配有标记的所述多个文本条目进行模型训练得到模型,该模型用于对给定文本中的每个词分配所述标记。
步骤S15:调用所述模型,对于待处理文本中的每个词分配标记,然后输出该待处理文本中分配有所述专用标记的词。
以下对于上述步骤做进一步说明。步骤S11中的商品名的特征词是出现在该商品名中较多而出现在其他商品名中较少的字符串。具体可以按如下步骤来得到特征词:
1、对商品库中的各个商品名进行切词;
2、对于切词得到的各个词,分别计算其在各品牌中出现的概率,其中计算当前词在当前品牌中出现的概率的公式为:当前词出现在当前品牌的所有商品名中的次数÷当前词出现在所述商品库中的所有商品名中的次数;
3、对于在指定品牌中出现的概率大于预设值并且非品牌词的词以及所述指定品牌的包含该非品牌词的词的商品名,将该非品牌词的词作为该商品名的特征词。
表1是部分商品名和特征词的示例。
表1
商品名 特征词
小米(MI)红米2移动4G(8G ROM) 红米2
【电信赠费版】联想乐檬K3(K30-E)16G清新白电信4G手机双卡双待 乐檬K3 K30-E
酷派大神F1(8297)3G手机(智铂银)TD-SCDMA/GSM双卡双待 大神F1 8297
【合约版】苹果(APPLE)iPhone 6 A1589 128G版移动4G手机深空灰 iPhone 6 A1589
可以看出特征词是几乎只出现在其对应的商品名中。接下来就利用特征词来标记样本库中的各个用户问题。即步骤S12。在确定了特征词的情况下,将该特征词与其对应的商品名对应保存,再将用户问题与该问题对应的商品名对应保存,因为作为训练样本来说,需要先给定问题所针对的商品名。作为示例,表2给出了一部分上述保存的内容,即表2的左起前三列。
表2
以表2第2行为例,特征词为“GalaxyNote3”,用户问题是“请问note3有粉色吗”,二者都包含字符串“note3”,于是在步骤S12中,被确定的字符串即为“note3”,作为示意,将其列于表2左起第4列。
在步骤S13中,对用户问题中的每个词分配标记。在本发明的实施方式中,采用计算机进行标记。因为已经确定了用户问题中的上述字符串,所以向该字符串分配专用标记,该专用标记用于标示商品名称,用户问题中不属于该字符串的其他字符则分配给不同于上述专用标记的普通标记,可以看出这种标记方式比较简单,可以采用计算机程序来完成。例如对于用户问题“请问note3有粉色吗”,分配标记如表3所示。
表3
分词结果 词性标记 分配的标记
请问 v O
note VL WB
3 1DIGIT PNUM WE
v O
粉色 VL O
y O
w O
其中在步骤S12中被确定的字符串为note3,所以在分配标记时,对“note3”分配专用标记,即WB、WE。
在步骤S13中,优选地还可以对用户问题的各词添加其他标记,例如词性标记、品牌词标记等,使得模型具有一定的泛化学习能力,针对商品库中不存在的商品,通过现有大量的语料训练得到的模型也有可能从用户问题中识别该商品的商品名。
在步骤S14中,可以按商品品类训练模型,也就是说样本库中的训练语料可以结合品类划分。这里的品类可以灵活归类,一般地,电子商务中的商品的品类有分级,例如,一级品类有:数码、家用电器、服饰内衣、母婴、食品饮料等。一级品类下有多个二级品类,二级品类下又有多个三级品类。比如三级品类“单反相机”,对应二级品类“摄影摄像”,一级品类“数码”。可以按照品类语料的多少以及商品名的相似度进行划分。比如二级品类“电脑整机”下的三级品类“笔记本”、“游戏本”、“平板电脑”、“超级本”商品名比较类似,可以把它们的语料一起训练一个模型。有的品类用户咨询量很大,比如二级品类“女装”下的三级品类“衬衫”、“T恤”,用户咨询量都很大,就可以独自各训练一个模型。
相比较于现有技术中对于所有品类商品只训练一个模型的做法,本发明实施方式中可以针对不同的品类得到不同的模型,实现了更细的识别粒度,有助于提高识别精度。
在步骤S15中,应用步骤S14中得到的模型来处理当前的待处理文本。例如待处理文本是用户咨询的一个问题,此时先对该问题进行切词,然后可以对这些词添加词性标记,接下来即可使用模型进行处理,模型对该待问题分配标记。如果是采用按商品品类训练得到的模型,则需要先识别问题所针对的品类,可以采用专门的品类识别模型进行品类识别,也可以采用关键字或者按咨询入口来进行品类识别。这里的咨询入口主要是指呈现商品的网页,用户可在该网页输入并提交咨询问题。一般来说用户是针对其所浏览的网页上的商品来提出问题。上述的采用关键字进行品类识别,主要是指根据用户咨询问题中的关键字来识别该问题针对的商品所属的品类,例如问题中出现“手机”,就认为问题针对手机品类;问题中出现“电脑”,就认为问题针对电脑品类;出现“双卡双待”这样的明显属于手机属性的词时,也认为是问题针对手机品类。
在确定了模型之后,就可以用该模型处理该问题。如果该问题中包含了属于商品名中的特征词的字符串,模型就会对该字符串分配上述的专用标记。这样就实现了识别商品,因为使用该特征词能够区别商品。如需输出具体的商品名称,为接下来在商品数据库中搜索分配有上述的专用标记的商品名称即可得到具体的商品名称。
图2是根据本发明实施方式的从文本中识别商品名称的装置的主要模块的示意图。该装置可以采用计算机软件来实现。如图2所示,从文本中识别商品名称的装置20主要包括第一确定模块21、第二确定模块22、标记模块23、模型训练模块24、以及识别模块25。
第一确定模块21用于确定商品库中各个商品名的特征词;第二确定模块22用于对于预先保存的分别与多个商品名相关联的多个文本条目,从各个文本条目中分别确定该文本条目与其所关联的商品名的特征词所共有的字符串;标记模块23用于为所述多个文本条目中的每个词分配标记,其中向所述字符串分配用于标示商品名称的专用标记;还可用于为所述多个文本条目中的每个词分配词性标记和/品牌词标记;模型训练模块24用于对分配有标记的所述多个文本条目进行模型训练得到模型,该模型用于对给定文本中的每个词分配所述标记;识别模块25用于调用所述模型,对于待处理文本中的每个词分配标记,然后输出该待处理文本中分配有所述专用标记的词。
第一确定模块21还可用于:对商品库中的各个商品名进行切词;对于切词得到的各个词,分别计算其在各品牌中出现的概率,其中计算当前词在当前品牌中出现的概率的公式为:当前词出现在当前品牌的所有商品名中的次数÷当前词出现在所述商品库中的所有商品名中的次数;对于在指定品牌中出现的概率大于预设值并且非品牌词的词以及所述指定品牌的包含该非品牌词的词的商品名,将该非品牌词的词作为该商品名的特征词。
第一确定模块21还可用于确定包含单一品类商品的商品库中各个商品名的特征词;并且装置20还可包括保存模块,用于将得到的模型与所述品类对应地保存;并且识别模块25还可用于:确定待处理文本对应的品类,然后调用该品类对应的模型。
根据本发明实施方式的技术方案,对于用于训练模型的语料,利用特征词来识别语料中出现的属于商品名称所专有的字符串,从而实现计算机对于语料中的属于商品名称的字符串添加标记,相比于人工标注语料的方式来说效率得到很大的提高;因为能够采用计算机向语料添加标记,所以能够实现向大量的语料添加标记,使得能够采用的语料数量远远超过人工添加标记的方式,从而得到更加准确的模型,所以也提高了商品名称识别的准确性。可参考图3,图3是根据本发明实施方式以及根据现有技术分别得到的商品名识别准确率的示意图。在图3中,纵坐标表示商名称识别准确率,横坐标上分布多种商品品类,每个品类对应两条竖线,其中带有箭头的竖线的高度表示采用本发明实施方式进行语料标注之后得到的模型的商品名称识别准确率,另一条不带箭头的竖线的高度表示采用现有技术得到的模型的商品名称识别准确率。从图中可以直观地看出,与现有技术相比,采用本发明实施方式得到的模型在商品名称识别准确率方面明显优于现有技术。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (8)

1.一种从文本中识别商品名称的方法,其特征在于,包括:
确定商品库中各个商品名的特征词;
对于预先保存的分别与多个商品名相关联的多个文本条目,从各个文本条目中分别确定该文本条目与其所关联的商品名的特征词所共有的字符串;
为所述多个文本条目中的每个词分配标记,其中向所述字符串分配用于标示商品名称的专用标记;
对分配有标记的所述多个文本条目进行模型训练得到模型,该模型用于对给定文本中的每个词分配所述标记;
调用所述模型,对于待处理文本中的每个词分配标记,然后输出该待处理文本中分配有所述专用标记的词。
2.根据权利要求1所述的方法,其特征在于,确定商品库中各个商品名的特征词的步骤包括:
对商品库中的各个商品名进行切词;
对于切词得到的各个词,分别计算其在各品牌中出现的概率,其中计算当前词在当前品牌中出现的概率的公式为:当前词出现在当前品牌的所有商品名中的次数÷当前词出现在所述商品库中的所有商品名中的次数;
对于在指定品牌中出现的概率大于预设值并且非品牌词的词以及所述指定品牌的包含该非品牌词的词的商品名,将该非品牌词的词作为该商品名的特征词。
3.根据权利要求1或2所述的方法,其特征在于,
所述商品库中的商品属于单一品类;
在对分配有标记的所述多个文本条目进行模型训练得到模型的步骤之后,还包括:将得到的模型与所述品类对应地保存;
所述调用所述模型的步骤包括:确定待处理文本对应的品类,然后调用该品类对应的模型。
4.根据权利要求1或2所述的方法,其特征在于,为所述多个文本条目中的每个词分配标记的步骤还包括:为所述多个文本条目中的每个词分配词性标记和/或品牌词标记。
5.一种从文本中识别商品名称的装置,其特征在于,包括:
第一确定模块,用于确定商品库中各个商品名的特征词;
第二确定模块,用于对于预先保存的分别与多个商品名相关联的多个文本条目,从各个文本条目中分别确定该文本条目与其所关联的商品名的特征词所共有的字符串;
标记模块,用于为所述多个文本条目中的每个词分配标记,其中向所述字符串分配用于标示商品名称的专用标记;
模型训练模块,用于对分配有标记的所述多个文本条目进行模型训练得到模型,该模型用于对给定文本中的每个词分配所述标记;
识别模块,用于调用所述模型,对于待处理文本中的每个词分配标记,然后输出该待处理文本中分配有所述专用标记的词。
6.根据权利要求5所述的装置,其特征在于,所述第一确定模块还用于:
对商品库中的各个商品名进行切词;
对于切词得到的各个词,分别计算其在各品牌中出现的概率,其中计算当前词在当前品牌中出现的概率的公式为:当前词出现在当前品牌的所有商品名中的次数÷当前词出现在所述商品库中的所有商品名中的次数;
对于在指定品牌中出现的概率大于预设值并且非品牌词的词以及所述指定品牌的包含该非品牌词的词的商品名,将该非品牌词的词作为该商品名的特征词。
7.根据权利要求5或6所述的装置,其特征在于,
所述第一确定模块还用于确定包含单一品类商品的商品库中各个商品名的特征词;
所述装置还包括保存模块,用于将得到的模型与所述品类对应地保存;
所述识别模块还用于:确定待处理文本对应的品类,然后调用该品类对应的模型。
8.根据权利要求5或6所述的装置,其特征在于,所述标记模块还用于为所述多个文本条目中的每个词分配词性标记和/品牌词标记。
CN201510490393.3A 2015-08-11 2015-08-11 从文本中识别商品名称的方法和装置 Active CN105045909B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510490393.3A CN105045909B (zh) 2015-08-11 2015-08-11 从文本中识别商品名称的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510490393.3A CN105045909B (zh) 2015-08-11 2015-08-11 从文本中识别商品名称的方法和装置

Publications (2)

Publication Number Publication Date
CN105045909A true CN105045909A (zh) 2015-11-11
CN105045909B CN105045909B (zh) 2018-04-03

Family

ID=54452456

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510490393.3A Active CN105045909B (zh) 2015-08-11 2015-08-11 从文本中识别商品名称的方法和装置

Country Status (1)

Country Link
CN (1) CN105045909B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107103514A (zh) * 2017-04-25 2017-08-29 北京京东尚科信息技术有限公司 商品性别标签确定方法和装置
CN109062893A (zh) * 2018-07-13 2018-12-21 华南理工大学 一种基于全文注意力机制的商品名称识别方法
CN109190122A (zh) * 2018-09-03 2019-01-11 上海腾道信息技术有限公司 一种应用于国际贸易领域中商品命名的识别方法
CN109597990A (zh) * 2018-11-22 2019-04-09 中国人民大学 一种社会热点与商品品类的匹配方法
CN110968685A (zh) * 2018-09-26 2020-04-07 阿里巴巴集团控股有限公司 商品名称的归集方法和装置
CN112907301A (zh) * 2021-03-29 2021-06-04 哈尔滨工业大学 一种基于Bi-LSTM-CRF模型的内容相关广告投放方法及系统
WO2021155711A1 (zh) * 2020-02-06 2021-08-12 北京沃东天骏信息技术有限公司 物品属性词识别方法、装置、设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100185691A1 (en) * 2009-01-20 2010-07-22 Yahoo! Inc. Scalable semi-structured named entity detection
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类系统
CN103440287A (zh) * 2013-08-14 2013-12-11 广东工业大学 一种基于产品信息结构化的Web问答检索系统
CN103617239A (zh) * 2013-11-26 2014-03-05 百度在线网络技术(北京)有限公司 命名实体的识别方法、装置及分类模型的创建方法、装置
CN103970761A (zh) * 2013-01-28 2014-08-06 阿里巴巴集团控股有限公司 一种商品数据搜索方法及装置
CN104008186A (zh) * 2014-06-11 2014-08-27 北京京东尚科信息技术有限公司 从目标文本中确定关键词的方法和装置
CN104111933A (zh) * 2013-04-17 2014-10-22 阿里巴巴集团控股有限公司 获取业务对象标签、建立训练模型的方法及装置
CN104331395A (zh) * 2014-10-28 2015-02-04 北京京东尚科信息技术有限公司 从文本中识别中文商品名称的方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100185691A1 (en) * 2009-01-20 2010-07-22 Yahoo! Inc. Scalable semi-structured named entity detection
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类系统
CN103970761A (zh) * 2013-01-28 2014-08-06 阿里巴巴集团控股有限公司 一种商品数据搜索方法及装置
CN104111933A (zh) * 2013-04-17 2014-10-22 阿里巴巴集团控股有限公司 获取业务对象标签、建立训练模型的方法及装置
CN103440287A (zh) * 2013-08-14 2013-12-11 广东工业大学 一种基于产品信息结构化的Web问答检索系统
CN103617239A (zh) * 2013-11-26 2014-03-05 百度在线网络技术(北京)有限公司 命名实体的识别方法、装置及分类模型的创建方法、装置
CN104008186A (zh) * 2014-06-11 2014-08-27 北京京东尚科信息技术有限公司 从目标文本中确定关键词的方法和装置
CN104331395A (zh) * 2014-10-28 2015-02-04 北京京东尚科信息技术有限公司 从文本中识别中文商品名称的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孟洪宇 等: "基于条件随机场的中医术语抽取方法及其应用探析", 《中华中医药学刊》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107103514A (zh) * 2017-04-25 2017-08-29 北京京东尚科信息技术有限公司 商品性别标签确定方法和装置
CN109062893A (zh) * 2018-07-13 2018-12-21 华南理工大学 一种基于全文注意力机制的商品名称识别方法
CN109062893B (zh) * 2018-07-13 2021-09-21 华南理工大学 一种基于全文注意力机制的商品名称识别方法
CN109190122A (zh) * 2018-09-03 2019-01-11 上海腾道信息技术有限公司 一种应用于国际贸易领域中商品命名的识别方法
CN110968685A (zh) * 2018-09-26 2020-04-07 阿里巴巴集团控股有限公司 商品名称的归集方法和装置
CN110968685B (zh) * 2018-09-26 2023-06-20 阿里巴巴集团控股有限公司 商品名称的归集方法和装置
CN109597990A (zh) * 2018-11-22 2019-04-09 中国人民大学 一种社会热点与商品品类的匹配方法
CN109597990B (zh) * 2018-11-22 2022-11-15 中国人民大学 一种社会热点与商品品类的匹配方法
WO2021155711A1 (zh) * 2020-02-06 2021-08-12 北京沃东天骏信息技术有限公司 物品属性词识别方法、装置、设备及存储介质
CN112907301A (zh) * 2021-03-29 2021-06-04 哈尔滨工业大学 一种基于Bi-LSTM-CRF模型的内容相关广告投放方法及系统

Also Published As

Publication number Publication date
CN105045909B (zh) 2018-04-03

Similar Documents

Publication Publication Date Title
CN105045909A (zh) 从文本中识别商品名称的方法和装置
CN105808526B (zh) 商品短文本核心词提取方法和装置
US10678816B2 (en) Single-entity-single-relation question answering systems, and methods
CN108460136A (zh) 电力运维信息知识图谱构建方法
TWI631474B (zh) Method and device for product identification label and method for product navigation
CN104111933B (zh) 获取业务对象标签、建立训练模型的方法及装置
CN107329967A (zh) 基于深度学习的问答系统以及方法
CN109871446A (zh) 意图识别中的拒识方法、电子装置及存储介质
CN111078885B (zh) 一种标签分类的方法、相关装置、设备以及存储介质
CN103377249B (zh) 关键词投放方法及系统
CN109543031A (zh) 一种基于多任务对抗学习的文本分类方法
CN107832338B (zh) 一种识别核心产品词的方法和系统
CN107145573A (zh) 人工智能客服机器人的问题解答方法及系统
CN109447266A (zh) 一种基于大数据的农业科技服务智能分拣方法
CN110377727A (zh) 一种基于多任务学习的多标签文本分类方法和装置
CN110019698A (zh) 一种医学问答的智能服务方法及系统
CN110413767A (zh) 基于自然语言生成呈递内容的系统及方法
CN107833088A (zh) 内容提供方法、装置及智能设备
CN106569996A (zh) 一种面向中文微博的情感倾向分析方法
CN113901214B (zh) 表格信息的提取方法、装置、电子设备及存储介质
CN113836316A (zh) 三元组数据的处理方法、训练方法、装置、设备及介质
CN109299287A (zh) 一种酒类信息的查询方法和装置
CN110532394B (zh) 订单备注文本的处理方法及系统
CN110019646B (zh) 一种建立索引的方法和装置
CN115033799B (zh) 一种商品搜索方法、系统及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant