CN104008186A - 从目标文本中确定关键词的方法和装置 - Google Patents

从目标文本中确定关键词的方法和装置 Download PDF

Info

Publication number
CN104008186A
CN104008186A CN201410257533.8A CN201410257533A CN104008186A CN 104008186 A CN104008186 A CN 104008186A CN 201410257533 A CN201410257533 A CN 201410257533A CN 104008186 A CN104008186 A CN 104008186A
Authority
CN
China
Prior art keywords
keyword
semantic association
text
weighted value
association word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410257533.8A
Other languages
English (en)
Other versions
CN104008186B (zh
Inventor
陈海勇
牟川
邢志峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201410257533.8A priority Critical patent/CN104008186B/zh
Publication of CN104008186A publication Critical patent/CN104008186A/zh
Application granted granted Critical
Publication of CN104008186B publication Critical patent/CN104008186B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0207Discounts or incentives, e.g. coupons or rebates
    • G06Q30/0222During e-commerce, i.e. online transactions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Computational Linguistics (AREA)
  • Strategic Management (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种从目标文本中确定关键词的方法和装置,能够基于语义从文本中识别词语,应用于电子商务领域中能够提高从文本中识别商品名称及品牌名称的准确性。该方法包括:在预选的文本集合中匹配预定的一个或多个关键词,每篇文本和每个关键词带有附加信息;从匹配到的关键词的预设范围的上下文中取多个对应于该关键词的语义关联词,并为取到的语义关联词设置正向的权重值和负向的权重值;在目标文本中匹配所述一个或多个关键词,从匹配到的关键词的预设范围的上下文中匹配该关键词对应的语义关联词,计算这些语义关联词的所有权重值的和,在该和大于设定值的情况下输出提示信息。

Description

从目标文本中确定关键词的方法和装置
技术领域
本发明涉及一种从目标文本中确定关键词的方法和装置。
背景技术
在电商平台、互联网新闻与社交媒体中,常常需要从文本中识别出用户对哪些商品与品牌关注。商品与品牌名称的识别技术通常以字符串匹配或文本相似度计算为基础,或应用一些实体名称识别方法,从文本中定位出具体商品和品牌名称。
现有的一种商品与品牌名称识别方法的基本步骤如下:
1、加载已有的商品与品牌名称库或实体属性库;
2、对目标文章做文本预处理,包括去掉无关的字符、文本切分等操作;
3、用商品与品牌名称库或实体属性库和切分的片断进行字符串匹配或文本实体相似度计算;
4、输出满足匹配条件的商品与品牌名称,并返回命中的位置。
现有技术是基于文本匹配或者文本实体相似度计算的,只能根据字面是否相同来识别商品与品牌。例如品牌名称库中的苹果、小米本身指的是手机品牌,但在一篇关于食品安全的目标文本中,可能会命中作为食品的苹果和小米,计算机在处理时就会误认为这篇目标文本是在关注品牌为苹果以及小米的手机。也就是说现有技术对于从文本中识别商品名称及品牌名称的准确性还有待提高。
发明内容
有鉴于此,本发明提供一种从目标文本中确定关键词的方法和装置,能够基于语义从文本中识别词语,应用于电子商务领域中能够提高从文本中识别商品名称及品牌名称的准确性。
为实现上述目的,根据本发明的一个方面,提供了一种从目标文本中确定关键词的方法和装置。
本发明的从目标文本中确定关键词的方法包括:在预选的文本集合中匹配预定的一个或多个关键词,每篇文本和每个关键词带有附加信息;从匹配到的关键词的预设范围的上下文中取多个对应于该关键词的语义关联词,并为取到的语义关联词设置正向的权重值和负向的权重值,其中,若匹配命中的关键词的附加信息与该关键词所在文本的附加信息具有交集,该关键词对应的语义关联词的权重值为正向,反之为负向;在目标文本中匹配所述一个或多个关键词,从匹配到的关键词的预设范围的上下文中匹配该关键词对应的语义关联词,计算这些语义关联词的所有权重值的和,在该和大于设定值的情况下输出提示信息。
可选地,在所述预选的文本集合中多次出现同一关键词的情况下,对每个该关键词对应的语义关联词的正向的权重值和负向的权重值分别进行累加。
可选地,在所述为取到的语义关联词设置正向的权重值和负向的权重值的步骤中,权重值的绝对值大小根据语义关联词与其对应的关键词在文中的距离确定。
可选地,所述关键词是商品名称或者品牌名称;所述附加信息包括商品所属的品类。
根据本发明的另一方面,提供了一种从目标文本中确定关键词的装置。
本发明的从目标文本中确定关键词的装置包括:匹配模块,用于在预选的文本集合中匹配预定的一个或多个关键词,每篇文本和每个关键词带有附加信息;语义关联词统计模块,用于从匹配到的关键词的预设范围的上下文中取多个对应于该关键词的语义关联词,并为取到的语义关联词设置正向的权重值和负向的权重值,其中,若匹配命中的关键词的附加信息与该关键词所在文本的附加信息具有交集,该关键词对应的语义关联词的权重值为正向,反之为负向;目标文本识别模块,用于在目标文本中匹配所述一个或多个关键词,从匹配到的关键词的预设范围的上下文中匹配该关键词对应的语义关联词,计算这些语义关联词的所有权重值的和,在该和大于设定值的情况下输出提示信息。
可选地,所述语义关联词统计模块还用于在所述预选的文本集合中多次出现同一关键词的情况下,对每个该关键词对应的语义关联词的正向的权重值和负向的权重值分别进行累加。
可选地,所述语义关联词统计模块还用于在所述为取到的语义关联词设置正向的权重值和负向的权重值时,根据语义关联词与其对应的关键词在文中的距离确定权重值的绝对值大小。
可选地,所述关键词是商品名称或者品牌名称;所述附加信息包括商品所属的品类。
根据本发明的技术方案,将商品名称或品牌名称作为关键词,使用文本集合进行训练得到各关键词对应的多个语义关联词,然后对于需要识别的文本,查找其中的上述语义关联词,这些语义关联词对应的关键词即为该需要识别的文本所涉及的商品或品牌。由于词语往往有多种含义,同一词语常常出现在不同领域的文章中并且具有明显的意义上的区别。但采用本实施例的方案能够基于语义对文本中的关键词进行识别,不仅能够识别关键词的字面本身,而且能够结合上下文来确定该关键词在文章中的实际语义,因此能够准确地从文章中识别词语,应用在电子商务领域时,有助于从文本中准确地识别商品名称和品牌名称。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的获得关键词的语义关联词的一种优选流程的示意图;
图2是根据本发明实施例的对目标文本进行识别的一种优选方式的示意图;
图3是根据本发明实施例的从目标文本中确定关键词的装置的基本结构的示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本实施例以电商平台中的应用为例,说明如何在文本中识别该文本涉及哪些商品或品牌。这里的商品是指一种商品的名称,例如自行车、手机等,品牌则可能包含多种商品,例如电子产品生产商的一个品牌往往包含多种电子产品如手机、计算机等。
在本实施例的方案中,将商品名称或品牌名称作为关键词,使用文本集合进行训练得到各关键词对应的多个语义关联词,然后对于需要识别的文本,查找其中的上述语义关联词,这些语义关联词对应的关键词即为该需要识别的文本所涉及的商品或品牌。这里的语义关联词是经常与关键词搭配使用的词语,例如与作为一种水果的“苹果”经常搭配使用的词有“甜”、“水果”等。通过对大量文本中出现的“苹果”的上下文的分析,即可以找到经常与“苹果”搭配使用的词。
以下结合图1说明本实施例中获得语义关联词的方法。图1是根据本发明实施例的获得关键词的语义关联词的一种优选流程的示意图。如图1所示,该流程主要包括如下的步骤S11至步骤S16。这里结合一个简单的实例加以说明以便理解。
步骤S11:加载商品名称库和品牌名称库。加载的内容例如表1所示。作为简单的示例,表1及以下说明中仅涉及2个关键词,即作为一种品牌的苹果和作为一种商品的苹果。二者带有品类标签以作为区别。以下的表2中类似地仅示出2篇训练文章。
表1
ID 名称 品牌或商品 品类标签
1 苹果 品牌 手机、电脑、数码
2 苹果 商品 食品、水果
…… …… …… ……
商品与品牌名称库包含商品与品牌的名称和所属品类标签。每次训练时控制商品与品牌名称的加载数量,直接将定量条目载入计算机内存的哈希表中,便于后续步骤中与训练文章进行快速文本匹配。
步骤S12:取训练集中的一篇文本,与加载的商品名称库和品牌名称库进行匹配。训练集中的文本可以从多种渠道获得。例如论坛中的帖子、商品买家对商品的评论、有关商品的新闻、分析等文章。加载的训练文章例如表2所示。训练文章经由人工分析,按其内容设置有品类标签,以标明该文章的内容涉及的品类。
表2
本步骤中的输入量是带有品类标签的训练集文章,输出量是匹配命中的带有品类标签的商品名称与品牌名称、所在文章的品类标签、命中位置。
在本步骤中,首先对文章的文本进行预处理。预处理主要是去掉一些无效字符,可根据设置的无效字符库来进行;另外按标点符号和分割符号(例如空格)将文本切分成多个片断。预处理的结果如表3所示,以“|”作为切分符号。
表3
接下来取一篇文章作为当前文章进行匹配,具体是将当前文章经过预处理后得到的片断和内存中的商品名称库与品牌名称库进行字串匹配和相似度计算,这一过程可采用现有的文本匹配和相似度计算的技术。如果匹配命中,即当前文章中包含内存中的商品名称库与品牌名称库中的名称,则进行步骤S13,否则进入步骤S15。如表1至表3的内容所示,在本例子中,命中了表1中ID为1和2的两个名称“苹果”。需要说明的是,在本例中命中了商品名称和品牌名称,在其他实例中可能仅命中商品名称或品牌名称。在本例中,当前文章为文本1,“苹果”的命中位置为文本1的第1段第1个词、第2段第1个词。
步骤S13:确定匹配到的商品名称和品牌名称的语义关联词及其权重。在本步骤中,输入量为:匹配命中的商品名称与品牌名称,并且带有品类标签;当前文章的品类标签;命中位置;当前文章经上述预处理之后的正文。输出量为匹配命中的商品名称与品牌名称及其语义关联词和权重。该权重具有值和正负向。
在本步骤中,首先在当前文章中的命中位置向前以及向后各取M(本例中取50)个词作为语义关联词。如果向前或向后遇到文章开端或末尾,则采用实际可取到的词(即取到多少算多少)。然后计算取到的词与命中位置的距离N(本实施例中该距离是取到的词与命中位置之间的词的数量),其权重即为M和N的差值即M-N。参考表4,表4中列出了步骤S14之后的结果。例如“英寸”与“苹果”之间相隔1个词“MacBook”,则“英寸”的权重值为50-1=49。接下来确定权重值的正负向。若匹配命中的商品名称和品类名称的品类标签与当前文章的品类标签具有交集(即包含相同的一个或多个标签),则当前文章中的取到的词具有正向的权重值。例如,ID为1的名称“苹果”和ID为2的名称“苹果”在当前文章1中都匹配命中,ID为1的名称“苹果”的品类标签为“手机、电脑、数码”,“英寸”所在的文章的品类标签为“手机、电脑、数码”,这两个品类标签存在交集,则“英寸”作为ID为1的名称“苹果”的语义关联词,具有一个正向的权重值49;ID为2的名称“苹果”的品类标签为“食品、水果”,“英寸”所在的文章的品类标签为“手机、电脑、数码”,这两个品类标签不存在交集,则“英寸”ID为2的名称“苹果”的语义关联词,具有一个负向的权重值49。本步骤之后进入步骤S14,对匹配命中多个位置的情况加以处理。
步骤S14:对关联词表的权重进行迭代更新。本步骤主要是针对在匹配时反复命中的情况,即文本中多次出现同一商品名称或品类名称。本步骤中的输入量是匹配命中的商品名称与品牌名称、命中位置的上下文的语义关联词。
在本步骤中,首先取出命中的商品名称与品牌名称的语义关联词表,如果没有对应的语义关联词表,则先建立一个空的语义关联词表。然后逐个扫描上下文语义关联词,看语义关联词表中是否已含该语义关联词。如果没有,直接在关联词表中加入该语义关联词,并将该语义关联词与命中位置的间距作为初始权重,正值加入正向权重,负值加入负向权重。如果关联词表中有该语义关联词,则将语义关联词的权重累加在语义关联词表中对应的权重字段上,即正正相加,或者负负相加。例如,文本1中的“5s”出现2次,2个“5s”对于ID为1的“苹果”分别有正向权重46和49,因此“5s”对于ID为1的“苹果”具有正向权重46+49=95。类似地,2个“5s”对于ID为2的“苹果”分别有正向权重46和49,因此“5s”对于ID为2的“苹果”具有负向权重46+49=95。表4示出了本步骤之后的结果。
表4
步骤S15:判断训练集文章是否都经过匹配。若是则进入步骤S16,否则返回步骤S12。上述例子中,处理了两篇文本。在有更多文本的情况下,表4的内容进一步延长。
步骤S16:输出语义关联词表。在语义关联词表中,列出了每个商品名称或品牌名称对应的语义关联词,如表5所示。表5的内容是根据表4的内容得出,并且对权重值作了归一化处理,即用表4中的权重值除以所有语义关联词权重值的和。根据本例,所有语义关联词为:iPhone、5s、MacBook、英寸、5c、宽屏、32G、水果、甜、营养。权重值的和即为97+95+50+49+48+48+47+50+50+49=583。
表5
在得到表5的语义关联词表之后,就可以对目标文本进行识别,以确定该文本涉及了哪个或哪些商品和/或品牌。具体可采用图2所示的流程,图2是根据本发明实施例的对目标文本进行识别的一种优选方式的示意图。以下结合一个例子对图2中的各步骤加以说明,在该例中使用表5的内容。
步骤S21:加载语义关联词表。即表5的内容。载入计算机内存的哈希表中,便于与目标文本进行快速匹配。
步骤S22:对目标文本和语义关联词表中的商品名称以及品牌名称进行匹配。本步骤中同样对目标文本进行预处理,去掉无效字符并对目标文本进行切分处理。
例如,目标文本是:苹果iphone6上市了,32G版本可售
进行预处理之后的结果是:苹果|iphone|32G
步骤S23:取目标文本中的语义关联词。按上例,命中的商品名称是作为一种品牌的“苹果”和作为一种商品的“苹果”,取到的语义关联词为:iphone、32G。
步骤S24:计算语义匹配度。查语义关联词表,“iphone”和“32G”对应于作为品牌的“苹果”,权重值分别为正向的0.166和0.081,累计权重为0.247。对应于作为商品的“苹果”,“iphone”和“32G”的权重值分别为负向的0.166和0.081,累计权重为-0.247。以上结果列于表6中。
表6
在累计权重大于一个预设值(该预设值根据实际情况调整)的情况下,认定名称中的字段与目标文本匹配。表6中的“是否一致”表示目标文本是否涉及同时符合表6第2、3列的商品名称或品牌名称。实际匹配位置是命中的商品名称或品牌名称在目标文本中的位置,即目标文本第1段第1个词。而第3行第6列的“无”表示目标文本1并没有涉及作为一种商品的“苹果”。此时可以输出一条提示信息,例如输出目标文本的标题以及其中涉及的品牌名称。
可以看出,虽然“苹果”一词具有两个含义,分别是作为一种食品和一个品牌,在不同领域的文章中都有可能涉及“苹果”一词,但采用本实施例的方案,能够使计算机准确地识别有关食品的文章中的苹果和有关数码产品的文章中的苹果的含义,避免因为包含“苹果”这样的关键词就认为一篇有关水果的文章是在讨论手机等电子产品。
图3是根据本发明实施例的从目标文本中确定关键词的装置的基本结构的示意图。如图3所示,从目标文本中确定关键词的装置30主要包括匹配模块31、语义关联词统计模块32、以及目标文本识别模块33。
匹配模块31用于在预选的文本集合中匹配预定的一个或多个关键词,每篇文本和每个关键词带有附加信息。语义关联词统计模块32用于从匹配到的关键词的预设范围的上下文中取多个对应于该关键词的语义关联词,并为取到的语义关联词设置正向的权重值和负向的权重值,其中,若匹配命中的关键词的附加信息与该关键词所在文本的附加信息具有交集,该关键词对应的语义关联词的权重值为正向,反之为负向。目标文本识别模块33用于在目标文本中匹配上述一个或多个关键词,从匹配到的关键词的预设范围的上下文中匹配该关键词对应的语义关联词,计算这些语义关联词的所有权重值的和,在该和大于设定值的情况下输出提示信息。
语义关联词统计模块32还可用于在预选的文本集合中多次出现同一关键词的情况下,对每个该关键词对应的语义关联词的正向的权重值和负向的权重值分别进行累加。
语义关联词统计模块32还可用于在为取到的语义关联词设置正向的权重值和负向的权重值时,根据语义关联词与其对应的关键词在文中的距离确定权重值的绝对值大小。
根据本发明实施例的技术方案,将商品名称或品牌名称作为关键词,使用文本集合进行训练得到各关键词对应的多个语义关联词,然后对于需要识别的文本,查找其中的上述语义关联词,这些语义关联词对应的关键词即为该需要识别的文本所涉及的商品或品牌。由于词语往往有多种含义,同一词语常常出现在不同领域的文章中并且具有明显的意义上的区别。但采用本实施例的方案能够基于语义对文本中的关键词进行识别,不仅能够识别关键词的字面本身,而且能够结合上下文来确定该关键词在文章中的实际语义,因此能够准确地从文章中识别词语,应用在电子商务领域时,有助于从文本中准确地识别商品名称和品牌名称。
以上结合具体实施例描述了本发明的基本原理,但是,需要指出的是,对本领域的普通技术人员而言,能够理解本发明的方法和设备的全部或者任何步骤或者部件,可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。
因此,本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此,本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说,这样的程序产品也构成本发明,并且存储有这样的程序产品的存储介质也构成本发明。显然,所述存储介质可以是任何公知的存储介质或者将来开发出的任何存储介质。
还需要指出的是,在本发明的装置和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (8)

1.一种从目标文本中确定关键词的方法,其特征在于,包括:
在预选的文本集合中匹配预定的一个或多个关键词,每篇文本和每个关键词带有附加信息;
从匹配到的关键词的预设范围的上下文中取多个对应于该关键词的语义关联词,并为取到的语义关联词设置正向的权重值和负向的权重值,其中,若匹配命中的关键词的附加信息与该关键词所在文本的附加信息具有交集,该关键词对应的语义关联词的权重值为正向,反之为负向;
在目标文本中匹配所述一个或多个关键词,从匹配到的关键词的预设范围的上下文中匹配该关键词对应的语义关联词,计算这些语义关联词的所有权重值的和,在该和大于设定值的情况下输出提示信息。
2.根据权利要求1所述的方法,其特征在于,在所述预选的文本集合中多次出现同一关键词的情况下,对每个该关键词对应的语义关联词的正向的权重值和负向的权重值分别进行累加。
3.根据权利要求1或2所述的方法,其特征在于,在所述为取到的语义关联词设置正向的权重值和负向的权重值的步骤中,权重值的绝对值大小根据语义关联词与其对应的关键词在文中的距离确定。
4.根据权利要求1或2所述的方法,其特征在于,
所述关键词是商品名称或者品牌名称;
所述附加信息包括商品所属的品类。
5.一种从目标文本中确定关键词的装置,其特征在于,包括:
匹配模块,用于在预选的文本集合中匹配预定的一个或多个关键词,每篇文本和每个关键词带有附加信息;
语义关联词统计模块,用于从匹配到的关键词的预设范围的上下文中取多个对应于该关键词的语义关联词,并为取到的语义关联词设置正向的权重值和负向的权重值,其中,若匹配命中的关键词的附加信息与该关键词所在文本的附加信息具有交集,该关键词对应的语义关联词的权重值为正向,反之为负向;
目标文本识别模块,用于在目标文本中匹配所述一个或多个关键词,从匹配到的关键词的预设范围的上下文中匹配该关键词对应的语义关联词,计算这些语义关联词的所有权重值的和,在该和大于设定值的情况下输出提示信息。
6.根据权利要求5所述的装置,其特征在于,所述语义关联词统计模块还用于在所述预选的文本集合中多次出现同一关键词的情况下,对每个该关键词对应的语义关联词的正向的权重值和负向的权重值分别进行累加。
7.根据权利要求5或6所述的装置,其特征在于,所述语义关联词统计模块还用于在所述为取到的语义关联词设置正向的权重值和负向的权重值时,根据语义关联词与其对应的关键词在文中的距离确定权重值的绝对值大小。
8.根据权利要求5或6所述的装置,其特征在于,
所述关键词是商品名称或者品牌名称;
所述附加信息包括商品所属的品类。
CN201410257533.8A 2014-06-11 2014-06-11 从目标文本中确定关键词的方法和装置 Active CN104008186B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410257533.8A CN104008186B (zh) 2014-06-11 2014-06-11 从目标文本中确定关键词的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410257533.8A CN104008186B (zh) 2014-06-11 2014-06-11 从目标文本中确定关键词的方法和装置

Publications (2)

Publication Number Publication Date
CN104008186A true CN104008186A (zh) 2014-08-27
CN104008186B CN104008186B (zh) 2018-10-16

Family

ID=51368843

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410257533.8A Active CN104008186B (zh) 2014-06-11 2014-06-11 从目标文本中确定关键词的方法和装置

Country Status (1)

Country Link
CN (1) CN104008186B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105045909A (zh) * 2015-08-11 2015-11-11 北京京东尚科信息技术有限公司 从文本中识别商品名称的方法和装置
CN105808526A (zh) * 2016-03-30 2016-07-27 北京京东尚科信息技术有限公司 商品短文本核心词提取方法和装置
CN107330752A (zh) * 2017-05-31 2017-11-07 北京京东尚科信息技术有限公司 识别品牌词的方法和装置
CN107679119A (zh) * 2017-09-19 2018-02-09 北京京东尚科信息技术有限公司 生成品牌衍生词的方法和装置
CN107818781A (zh) * 2017-09-11 2018-03-20 远光软件股份有限公司 智能交互方法、设备及存储介质
JP2019503541A (ja) * 2016-01-27 2019-02-07 オラクル・インターナショナル・コーポレイション 電子データ構造から属性を抽出するための注釈システム
CN109766550A (zh) * 2019-01-07 2019-05-17 有米科技股份有限公司 一种文本品牌识别方法、识别装置和存储介质
CN110099362A (zh) * 2019-04-29 2019-08-06 努比亚技术有限公司 可穿戴设备消息的提醒方法、可穿戴设备及存储介质
CN110110078A (zh) * 2018-01-11 2019-08-09 北京搜狗科技发展有限公司 数据处理方法和装置、用于数据处理的装置
CN110287289A (zh) * 2019-06-25 2019-09-27 北京金海群英网络信息技术有限公司 一种文档关键词提取及基于文档匹配商品的方法
CN111191024A (zh) * 2018-11-13 2020-05-22 零氪科技(天津)有限公司 一种计算句子语义向量的方法
CN111274853A (zh) * 2018-12-05 2020-06-12 北京京东尚科信息技术有限公司 图像处理方法和装置
CN111914535A (zh) * 2020-07-31 2020-11-10 平安科技(深圳)有限公司 一种单词识别方法、装置、计算机设备和存储介质
CN113256378A (zh) * 2021-05-24 2021-08-13 北京小米移动软件有限公司 一种确定用户购物需求的方法
CN113435193A (zh) * 2021-06-16 2021-09-24 深圳市世强元件网络有限公司 一种落地页面关键词投放方法、装置及计算机设备
CN114648027A (zh) * 2022-05-23 2022-06-21 每日互动股份有限公司 一种文本信息的处理方法、装置、计算机设备及存储介质
CN118470614A (zh) * 2024-07-11 2024-08-09 杭州海康威视数字技术股份有限公司 基于场景理解的视频处理方法、装置和智能分析系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477544A (zh) * 2009-01-12 2009-07-08 腾讯科技(深圳)有限公司 一种识别垃圾文本的方法和系统
CN101876981A (zh) * 2009-04-29 2010-11-03 阿里巴巴集团控股有限公司 一种构建知识库的方法及装置
CN102033961A (zh) * 2010-12-31 2011-04-27 百度在线网络技术(北京)有限公司 一种开放式知识共享平台及其多义词展现方法
CN103365974A (zh) * 2013-06-28 2013-10-23 百度在线网络技术(北京)有限公司 一种基于相关词主题的语义消歧方法和系统
US20130318101A1 (en) * 2012-05-22 2013-11-28 Alibaba Group Holding Limited Product search method and system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477544A (zh) * 2009-01-12 2009-07-08 腾讯科技(深圳)有限公司 一种识别垃圾文本的方法和系统
CN101876981A (zh) * 2009-04-29 2010-11-03 阿里巴巴集团控股有限公司 一种构建知识库的方法及装置
CN102033961A (zh) * 2010-12-31 2011-04-27 百度在线网络技术(北京)有限公司 一种开放式知识共享平台及其多义词展现方法
US20130318101A1 (en) * 2012-05-22 2013-11-28 Alibaba Group Holding Limited Product search method and system
CN103365974A (zh) * 2013-06-28 2013-10-23 百度在线网络技术(北京)有限公司 一种基于相关词主题的语义消歧方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
宋国平 等: ""一种基于上下文规则的词义消歧算法"", 《吉林大学学报》 *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105045909B (zh) * 2015-08-11 2018-04-03 北京京东尚科信息技术有限公司 从文本中识别商品名称的方法和装置
CN105045909A (zh) * 2015-08-11 2015-11-11 北京京东尚科信息技术有限公司 从文本中识别商品名称的方法和装置
JP2019503541A (ja) * 2016-01-27 2019-02-07 オラクル・インターナショナル・コーポレイション 電子データ構造から属性を抽出するための注釈システム
US11138250B2 (en) 2016-03-30 2021-10-05 Beijing Jingdong Shangke Information Technology Co., Ltd. Method and device for extracting core word of commodity short text
CN105808526A (zh) * 2016-03-30 2016-07-27 北京京东尚科信息技术有限公司 商品短文本核心词提取方法和装置
CN107330752A (zh) * 2017-05-31 2017-11-07 北京京东尚科信息技术有限公司 识别品牌词的方法和装置
CN107330752B (zh) * 2017-05-31 2020-09-29 北京京东尚科信息技术有限公司 识别品牌词的方法和装置
CN107818781A (zh) * 2017-09-11 2018-03-20 远光软件股份有限公司 智能交互方法、设备及存储介质
CN107679119B (zh) * 2017-09-19 2020-06-30 北京京东尚科信息技术有限公司 生成品牌衍生词的方法和装置
CN107679119A (zh) * 2017-09-19 2018-02-09 北京京东尚科信息技术有限公司 生成品牌衍生词的方法和装置
CN110110078A (zh) * 2018-01-11 2019-08-09 北京搜狗科技发展有限公司 数据处理方法和装置、用于数据处理的装置
CN110110078B (zh) * 2018-01-11 2024-04-30 北京搜狗科技发展有限公司 数据处理方法和装置、用于数据处理的装置
CN111191024A (zh) * 2018-11-13 2020-05-22 零氪科技(天津)有限公司 一种计算句子语义向量的方法
CN111191024B (zh) * 2018-11-13 2023-06-23 零氪科技(天津)有限公司 一种计算句子语义向量的方法
CN111274853A (zh) * 2018-12-05 2020-06-12 北京京东尚科信息技术有限公司 图像处理方法和装置
CN111274853B (zh) * 2018-12-05 2024-05-24 北京京东尚科信息技术有限公司 图像处理方法和装置
CN109766550A (zh) * 2019-01-07 2019-05-17 有米科技股份有限公司 一种文本品牌识别方法、识别装置和存储介质
CN110099362A (zh) * 2019-04-29 2019-08-06 努比亚技术有限公司 可穿戴设备消息的提醒方法、可穿戴设备及存储介质
CN110287289A (zh) * 2019-06-25 2019-09-27 北京金海群英网络信息技术有限公司 一种文档关键词提取及基于文档匹配商品的方法
CN111914535B (zh) * 2020-07-31 2023-03-24 平安科技(深圳)有限公司 一种单词识别方法、装置、计算机设备和存储介质
CN111914535A (zh) * 2020-07-31 2020-11-10 平安科技(深圳)有限公司 一种单词识别方法、装置、计算机设备和存储介质
CN113256378A (zh) * 2021-05-24 2021-08-13 北京小米移动软件有限公司 一种确定用户购物需求的方法
CN113435193A (zh) * 2021-06-16 2021-09-24 深圳市世强元件网络有限公司 一种落地页面关键词投放方法、装置及计算机设备
CN114648027A (zh) * 2022-05-23 2022-06-21 每日互动股份有限公司 一种文本信息的处理方法、装置、计算机设备及存储介质
CN118470614A (zh) * 2024-07-11 2024-08-09 杭州海康威视数字技术股份有限公司 基于场景理解的视频处理方法、装置和智能分析系统
CN118470614B (zh) * 2024-07-11 2024-10-08 杭州海康威视数字技术股份有限公司 基于场景理解的视频处理方法、装置和智能分析系统

Also Published As

Publication number Publication date
CN104008186B (zh) 2018-10-16

Similar Documents

Publication Publication Date Title
CN104008186A (zh) 从目标文本中确定关键词的方法和装置
CN102799591B (zh) 一种提供推荐词的方法及装置
US10664888B2 (en) Method and system for attribute extraction from product titles using sequence labeling algorithms
US10019515B2 (en) Attribute-based contexts for sentiment-topic pairs
US10268758B2 (en) Method and system of acquiring semantic information, keyword expansion and keyword search thereof
US10423648B2 (en) Method, system, and computer readable medium for interest tag recommendation
US10289957B2 (en) Method and system for entity linking
CN107704503A (zh) 用户关键词提取装置、方法及计算机可读存储介质
CN105243087B (zh) It资讯聚合阅读个性化推荐方法
US9336299B2 (en) Acquisition of semantic class lexicons for query tagging
CN103400286B (zh) 一种基于用户行为进行物品特征标注的推荐系统及方法
US20110225161A1 (en) Categorizing products
CN106250513A (zh) 一种基于事件建模的事件个性化分类方法及系统
CN104885081A (zh) 搜索系统和相应方法
US9569525B2 (en) Techniques for entity-level technology recommendation
US9898464B2 (en) Information extraction supporting apparatus and method
US20210117621A1 (en) Technologies for dynamically creating representations for regulations
CN101127042A (zh) 一种基于语言模型的情感分类方法
WO2014120720A1 (en) Systems and methods for indentifying documents based on citation history
JP6056610B2 (ja) テキスト情報処理装置、テキスト情報処理方法、及びテキスト情報処理プログラム
CN103838756A (zh) 一种确定推送信息的方法及装置
CN104268175A (zh) 一种数据搜索的装置及其方法
CN105630813A (zh) 基于用户自定义模板的关键词推荐方法和系统
CN104699844B (zh) 为广告确定视频标签的方法及装置
CN103136213A (zh) 一种提供相关词的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant