CN103631948B - 命名实体的识别方法 - Google Patents

命名实体的识别方法 Download PDF

Info

Publication number
CN103631948B
CN103631948B CN201310674046.7A CN201310674046A CN103631948B CN 103631948 B CN103631948 B CN 103631948B CN 201310674046 A CN201310674046 A CN 201310674046A CN 103631948 B CN103631948 B CN 103631948B
Authority
CN
China
Prior art keywords
entity
word
commodity
item property
name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310674046.7A
Other languages
English (en)
Other versions
CN103631948A (zh
Inventor
张永成
罗欢
何泉昊
张喜
姜文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201310674046.7A priority Critical patent/CN103631948B/zh
Publication of CN103631948A publication Critical patent/CN103631948A/zh
Application granted granted Critical
Publication of CN103631948B publication Critical patent/CN103631948B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种命名实体的识别方法,先对待处理文本中的特殊词进行识别,接下来对待处理文本中的型号实体进行识别,并用预设的数字串将待处理文本中被识别出为型号实体的特殊词替换,然后在此基础上进行商品实体、商品分类实体、品牌实体、商品属性名实体以及商品属性值实体等实体的识别。采用本发明可以不受无关关键字的影响,实现对商品和商品属性等实体的准确识别。

Description

命名实体的识别方法
技术领域
本发明涉及基于自然语言的人机自动应答技术,特别是涉及人机自动应答系统中的一种命名实体的识别方法。
背景技术
基于自然语言的人机自动应答系统,是自然语言理解的一个重要应用。人机自动应答系统在针对某一领域知识库进行特殊处理之后,用户可以通过浏览器以自然语言形式提出问题,系统可以多媒体的形式自动给出答案,而且能够针对用户要求进行相关的统计和针对具体情况给出适当的建议。
命名实体识别是自然语言理解的一个重要组成部分,它主要通过发现和标记自然语言文本中的命名实体。语义标注是将自然语言中的命名实体替换为机器可理解的信息,最常见的就是信息的编码。比如对于“联想K900有货吗?”这句话,其中,“联想K900”将会被识别和标注为商品,同时会标注出该商品的商品编号为“XXXXXXXXX”。
基于自然语言的人机自动应答系统广泛应用于电子商务领域中,在该领域中通常以商品和商品属性作为命名实体,需要从用户输入的自然语言中将此类命名实体准确有效识别出来。目前最常用的一种命名实体识别方法是直接使用搜索引擎识别商品名。具体方法为:将用户输入的自然语言进行分词,然后以各分词结果为关键词进行搜索系统数据库,最后对搜索结果进行处理,识别出该自然语言中的命名实体。
上述命名实体识别方法比较适合于不存在无关关键字的识别情况,可以快速确定需要搜索的命名实体,但是对于存在无关关键字时,往往不能识别无关关键字的语义,错误的作为关键字进行搜索,定位到错误的命名实体。
发明内容
有鉴于此,本发明的主要目的在于提供一种命名实体的识别方法,该方法可以对商品和商品属性进行准确有效地识别。
为了达到上述目的,本发明提出的技术方案为:
一种命名实体的识别方法,包括:
a、将用户在当前会话中输入的语句作为待处理文本,对所述待处理文本中符合预设规则的数字和超链接进行识别,并将所述待处理文本中的超链接替换为预设的超链接替代符号;
b、对所述待处理文本中的特殊词进行识别,并将连续的仅以空格间隔的所有特殊词标记为一个特殊词串,所述特殊词包括英文字符、数字和除句号和逗号之外的符号;
c、分别以每个所述特殊词为关键词,搜索系统的商品品牌和型号数据库,对所述待处理文本中的型号实体进行识别,并用预设的数字串将所述待处理文本中被识别出为型号实体的特殊词替换;
d、如果当前会话非首次会话,则根据上一次会话的命名实体识别过程中确定的初始命名实体,对所述待处理文本中的商品属性名实体和商品属性值实体进行识别;所述初始命名实体为商品实体或商品分类实体;
e、对步骤c中得到的所述待处理文本进行分词;并以分词后得到的每个词为索引,查找系统的品牌和商品分类词典,对所述待处理文本中的品牌实体和商品分类实体进行识别;
f、按照预设的关键词规则,根据当前识别出的所述实体,确定当前用于商品搜索的关键词;使用所述关键词,搜索预设的商品数据库,并从所搜索的商品中,选择出预设W个商品;根据最大公共子串原则,对所述W个商品进行筛选,将筛选到的每个商品标记为商品实体,并记录所述商品实体的商品编号;
g、根据当前已识别出的所述商品实体和所述商品分类实体,查询系统的商品、商品分类、商品属性名和商品属性值的关联数据库,识别出相应的商品属性名实体和商品属性值实体;
h、如果当前存在与所有所述实体无关的特殊词,则利用所述无关的特殊词,搜索所述商品数据库和所述商品、商品分类、商品属性名和商品属性值的关联数据库,识别出相应的商品属性名实体和商品属性值实体;
i、对当前已识别出的所有实体进行筛选,确定出本次会话的所有命名实体;并确定出用于下一次会话识别的初始命名实体。
综上所述,本发明提出的命名实体的识别方法,先对待处理文本中的特殊词进行识别,接下来对待处理文本中的型号实体进行识别,并用预设的数字串将待处理文本中被识别出为型号实体的特殊词替换,然后在此基础上进行商品实体、商品分类实体、品牌实体、商品属性名实体以及商品属性值实体等实体的识别。如此进行命名实体的识别,可以不受无关关键字的影响,实现对商品和商品属性等实体的准确识别。
附图说明
图1为本发明实施例一的流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明作进一步地详细描述。
本发明的核心思想是:先对特殊词进行识别,再对型号实体进行识别,并用预设的数字串将待处理文本中被识别出为型号实体的特殊词替换,然后在此基础上进行商品实体、商品分类实体、品牌实体、商品属性名实体以及商品属性值实体等实体的识别。如此可以不受无关关键字的影响,实现对商品和商品属性等实体的准确识别。
图1为本发明实施例一的流程示意图,如图1所示,该实施例的命名实体识别方法主要包括以下步骤:
步骤101、将用户在当前会话中输入的语句作为待处理文本,对所述待处理文本中符合预设规则的数字和超链接进行识别,并将所述待处理文本中的超链接替换为预设的超链接替代符号。
所述符合预设规则的数字和超链接为:满足商品编号规则的数字和满足商品页面规则的超链接。
本步骤中,需要将待处理文本中的超链接替换为预设的超链接替代符号,以便在后续步骤中,实现对商品属性名实体、商品属性值实体等用文字描述的实体的识别。
步骤102、对所述待处理文本中的特殊词进行识别,并将连续的仅以空格间隔的所有特殊词标记为一个特殊词串。
所述特殊词包括英文字符、数字和除句号和逗号之外的符号。
这里需要说明的是,本发明中需要先对文本中的特殊词进行识别,以便此后在此基础上准确识别出文本中的型号实体、商品属性名实体、商品属性值实体等实体。
步骤103、分别以每个所述特殊词为关键词,搜索系统的商品品牌和型号数据库,对所述待处理文本中的型号实体进行识别,并用预设的数字串将所述待处理文本中被识别出为型号实体的特殊词替换。
较佳地,本步骤中对所述待处理文本中的型号实体进行识别的具体方法如下:
分别以每个所述特殊词为关键词,搜索系统的商品品牌和型号数据库;将搜索到的型号信息与所述待处理文本进行全词匹配,将与所述型号信息所匹配的特殊词标记为型号实体;对于每个所述型号实体,在该型号实体的关联词列表属性中记录用于搜索到该型号实体的特殊词,并在该特殊词的关联实体列表属性中记录该型号实体。
这里,对于每个所述型号实体,在该型号实体的关联词列表属性中记录用于搜索到该型号实体的特殊词,并在该特殊词的关联实体列表属性中记录该型号实体,可以实现特殊词与相关型号实体间的关联。
这里,在对待处理文本中的型号实体进行识别后,需要用预设的数字串将待处理文本中与型号实体关联的特殊词替换,以便后续步骤中在对商品属性名实体、商品属性值实体等用文字描述的命名实体进行识别时,避免型号实体的干扰,提高识别的准确性。
步骤104、如果当前会话非首次会话,则根据上一次会话的命名实体识别过程中确定的初始命名实体,对所述待处理文本中的商品属性名实体和商品属性值实体进行识别;所述初始命名实体为商品实体或商品分类实体。
本步骤为了减少无关关键字的干扰,先用之前会话中识别出的商品实体或商品分类实体进行商品属性名实体和商品属性值实体的识别。
较佳地,本步骤中可以采用下述方法对待处理文本中的商品属性名实体和商品属性值实体进行识别:
步骤1041、以所述初始命名实体为关键词,查找系统的商品、商品分类、商品属性名和商品属性值的关联数据库,获得该初始命名实体关联的商品属性名和商品属性值,并获取所述商品属性名和商品属性值各自关联的词表。
这里,所述词表包括同义词和部分词,其中部分词和现有系统一样,是指词中所包含的词,即属于词的一部分。
步骤1042、将所获得的商品属性名、商品属性值以及所述词表中的每个词分别与所述待处理文本进行匹配,对于所述待处理文本中能够匹配的每个词,在组成该词的每个字的关联实体列表属性中,记录该词所在词表所属的商品属性名或商品属性值实体,并在该词所在词表所属的商品属性名或商品属性值实体中的关联词列表属性中,记录组成该词的字。
采用上述方法进行商品属性名实体和商品属性值实体的识别,可以使得对文本中命名实体的识别,不受非实体名的其它字符干扰。
步骤105、对步骤103中得到的所述待处理文本进行分词;并以分词后得到的每个词为索引,查找系统的品牌和商品分类词典,对所述待处理文本中的品牌实体和商品分类实体进行识别。
较佳地,本步骤可采用下述方法实现:
对步骤103中得到的所述待处理文本进行分词;以分词后得到的每个词为索引,查找系统的品牌和商品分类词典,识别出所述待处理文本中的品牌实体和商品分类实体,对于每个品牌实体和商品分类实体,在该实体的关联词列表属性中记录识别出该实体的词所包含的字,并在识别出该实体的词所包含的每个字的关联实体列表属性中记录该实体。
这里,具体的分词方法同现有技术,在此不再赘述。
较佳地,本步骤还可以进一步包括:对于分词后得到的每个词,标注相应的词性。
步骤106、按照预设的关键词规则,根据当前识别出的所述实体,确定当前用于商品搜索的关键词;使用所述关键词,搜索预设的商品数据库,并从所搜索的商品中,选择出预设W个商品;根据最大公共子串原则,对所述W个商品进行筛选,将筛选到的每个商品标记为商品实体,并记录所述商品实体的商品编号。
所述步骤106中所确定出的关键词中不包含关联实体列表属性中记录有商品属性名实体或商品属性值实体并且未记录有品牌实体和型号实体的特殊词;
较佳地,所述关键词规则将包括以下几条:
对于包含满足预设第一条件的字的每个词,将该词分别与每个关联实体列表属性中记录有型号实体的特殊词的组合,作为当前用于商品搜索的关键词;所述第一条件为关联实体列表属性中记录有品牌实体;
对于包含满足所述第一条件的字的每个词,将原始的所述待处理文本中以该词开始并以特殊词串结束的所有内容,作为当前用于商品搜索的关键词;
对于包含满足所述第一条件的字的每个词,将原始的所述待处理文本中以该词开始并以包含满足预设第二条件的字的词结束的所有内容,作为当前用于商品搜索的关键词;所述第二条件为关联实体列表属性中记录有商品分类实体;
对于关联实体列表属性中未记录有商品属性名实体和商品属性值实体的每个特殊词,如果在原始的所述待处理文本中,该特殊词之后紧跟着包含满足所述第二条件的字的词,则将该特殊词与紧跟其后的所述词的组合,作为当前用于商品搜索的关键词;
将关联实体列表属性中记录有型号实体的每个特殊词,作为当前用于商品搜索的关键词。
在实际应用中,可以从所搜索的商品中,任意选择出预设W个商品。这里,W的具体数值可由本领域技术人员根据实际的算法复杂度等性能要求进行设置。
较佳地,本步骤中对所述W个商品进行筛选,将筛选到的每个商品标记为商品实体,并记录所述商品实体的商品编号,可以采用下述方法实现:
对于所述W个商品中的每个商品,将该商品的商品名与原始的所述待处理文本进行匹配,得到该商品名的最长公共子串;
对于所有W个商品中最长公共子串的长度最长的商品,将该商品的所述最长公共子串所包含的每个字和特殊词记录在该商品对应的商品实体的关联词列表属性中,并在该商品的所述最长公共子串所包含的每个字和特殊词的关联实体列表属性中记录该商品对应的商品实体。
步骤107、根据当前已识别出的所述商品实体和所述商品分类实体,查询系统的商品、商品分类、商品属性名和商品属性值的关联数据库,识别出相应的商品属性名实体和商品属性值实体。
较佳地,本步骤可以建立下步骤方法实现:
对于当前已识别出的每个商品相关实体,所述商品相关实体包括商品实体和商品分类实体,以该商品相关实体为关键词,查找系统的商品、商品分类、商品属性名和商品属性值的关联数据库,获得该商品相关实体关联的商品属性名和商品属性值,并获取所述商品属性名和商品属性值各自关联的词表,所述词表包括同义词和部分词;
将所获得的商品属性名、商品属性值以及所述词表中的每个词分别与所述待处理文本进行匹配,对于所述待处理文本中能够匹配的每个词,在组成该词的每个字的关联实体列表属性中,记录该词所在词表所属的商品属性名或商品属性值实体,并在该词所在词表所属的商品属性名或商品属性值实体中的关联词列表属性中,记录组成该词的字。
步骤108、如果当前存在与所有所述实体无关的特殊词,则利用所述无关的特殊词,搜索所述商品数据库和所述商品、商品分类、商品属性名和商品属性值的关联数据库,识别出相应的商品属性名实体和商品属性值实体。
这里,所有所述实体是指当前已识别出的所有实体。与所有所述实体无关的特殊词即未进行实体关联的特殊词,具体为:关联实体列表属性为空的特殊词。本步骤,进一步利用未进行实体关联的特殊词进行商品属性名实体和商品属性值实体的识别,以确保对文本中所有相关的商品属性名实体和商品属性值实体进行准确识别。
较佳地,本步骤可以采用下述方法实现:
步骤1081、对于当前存在关联实体列表属性为空的每个所述特殊词,如果所述待处理文本中包含满足预设第二条件的字的词,则将每个包含满足所述第二条件的字的词分别与该特殊词的组合,作为当前的商品查询关键词,否则,将该特殊词作为当前的商品查询关键词;所述第二条件为关联实体列表属性中记录有商品分类实体。
步骤1082、使用当前的商品查询关键词,搜索所述商品数据库;并从所搜索的商品中,选择出预设Q个商品。
在实际应用中,可以采用任意选择的方式,选择出Q个商品。
这里,所述Q的具体数值可由本领域技术人员根据实际的算法复杂度等性能要求进行设置。
步骤1083、对于所述Q个商品中的每个商品,将该商品的商品名与原始的所述待处理文本进行匹配,得到该商品名的最长公共子串。
步骤1084、利用所有Q个商品中最长公共子串的长度最长的商品,查询所述系统的商品、商品分类、商品属性名和商品属性值的关联数据库,识别出相应的商品属性名实体和商品属性值实体。
步骤109、对当前已识别出的所有实体进行筛选,确定出本次会话的所有命名实体;并确定出用于下一次会话识别的初始命名实体。
本步骤中可以采用下述步骤进行所述筛选:
步骤1091、利用当前已识别出的所有实体建立实体候选集合。
步骤1092、按照关联词列表属性中记录的字和特殊词的数量从大到小的顺序,对所述实体候选集合中的所有实体进行排序。
步骤1093、从所述实体候选集合中选择出最前面且未被选择过的实体,作为当前的筛选参照实体。
步骤1094、对于当前的筛选参照实体的关联词列表属性中的每个字和特殊词,将其关联实体列表属性中记录的除该筛选参照实体之外的其他实体,从所述实体候选集合中删除。
步骤1095、判断所述实体候选集合中是否还有未被选择过的实体,如果有,则执行步骤1093,否则,将当前所述实体候选集合中的所有实体确定出本次会话的所有命名实体。
较佳地,所述步骤109中确定出用于下一次会话识别的初始命名实体包括:
如果步骤109中所确定出的本次会话的所有命名实体中包含有商品实体,则将在所述待处理文本中最后出现的商品实体作为用于下一次会话识别的初始命名实体;否则,将在所述待处理文本中最后出现的商品分类实体作为用于下一次会话识别的初始命名实体。
这里为了提高下一次会话中对命名实体识别的效率和准确度,需要确定用于下一次会话识别的初始命名实体。
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (11)

1.一种命名实体的识别方法,其特征在于,包括:
a、将用户在当前会话中输入的语句作为待处理文本,对所述待处理文本中符合预设规则的数字和超链接进行识别,并将所述待处理文本中的超链接替换为预设的超链接替代符号;
b、对所述待处理文本中的特殊词进行识别,并将连续的仅以空格间隔的所有特殊词标记为一个特殊词串,所述特殊词包括英文字符、数字和除句号和逗号之外的符号;
c、分别以每个所述特殊词为关键词,搜索系统的商品品牌和型号数据库,对所述待处理文本中的型号实体进行识别,并用预设的数字串将所述待处理文本中被识别出为型号实体的特殊词替换;
d、如果当前会话非首次会话,则根据上一次会话的命名实体识别过程中确定的初始命名实体,对所述待处理文本中的商品属性名实体和商品属性值实体进行识别;所述初始命名实体为商品实体或商品分类实体;
e、对步骤c中得到的所述待处理文本进行分词;并以分词后得到的每个词为索引,查找系统的品牌和商品分类词典,对所述待处理文本中的品牌实体和商品分类实体进行识别;
f、按照预设的关键词规则,根据当前识别出的所述实体,确定当前用于商品搜索的关键词;使用所述关键词,搜索预设的商品数据库,并从所搜索的商品中,选择出预设W个商品;根据最大公共子串原则,对所述W个商品进行筛选,将筛选到的每个商品标记为商品实体,并记录所述商品实体的商品编号;
g、根据当前已识别出的所述商品实体和所述商品分类实体,查询系统的商品、商品分类、商品属性名和商品属性值的关联数据库,识别出相应的商品属性名实体和商品属性值实体;
h、如果当前存在与所有所述实体无关的特殊词,则利用所述无关的特殊词,搜索所述商品数据库和所述商品、商品分类、商品属性名和商品属性值的关联数据库,识别出相应的商品属性名实体和商品属性值实体;
i、对当前已识别出的所有实体进行筛选,确定出本次会话的所有命名实体;如果所确定出的本次会话的所有命名实体中包含有商品实体,则将在所述待处理文本中最后出现的商品实体作为用于下一次会话识别的初始命名实体;否则,将在所述待处理文本中最后出现的商品分类实体作为用于下一次会话识别的初始命名实体。
2.根据权利要求1所述的方法,其特征在于,所述符合预设规则的数字和超链接为:满足商品编号规则的数字和满足商品页面规则的超链接。
3.根据权利要求1所述的方法,其特征在于,步骤c中对所述待处理文本中的型号实体进行识别包括:
分别以每个所述特殊词为关键词,搜索系统的商品品牌和型号数据库;将搜索到的型号信息与所述待处理文本进行全词匹配,将与所述型号信息所匹配的特殊词标记为型号实体;对于每个所述型号实体,在该型号实体的关联词列表属性中记录用于搜索到该型号实体的特殊词,并在该特殊词的关联实体列表属性中记录该型号实体。
4.根据权利要求1所述的方法,其特征在于,步骤d中对所述待处理文本中的商品属性名实体和商品属性值实体进行识别包括:
以所述初始命名实体为关键词,查找系统的商品、商品分类、商品属性名和商品属性值的关联数据库,获得该初始命名实体关联的商品属性名和商品属性值,并获取所述商品属性名和商品属性值各自关联的词表,所述词表包括同义词和部分词;
将所获得的商品属性名、商品属性值以及所述词表中的每个词分别与所述待处理文本进行匹配,对于所述待处理文本中能够匹配的每个词,在组成该词的每个字的关联实体列表属性中,记录该词所在词表所属的商品属性名或商品属性值实体,并在该词所在词表所属的商品属性名或商品属性值实体中的关联词列表属性中,记录组成该词的字。
5.根据权利要求1所述的方法,其特征在于,步骤e包括:
对步骤c中得到的所述待处理文本进行分词;以分词后得到的每个词为索引,查找系统的品牌和商品分类词典,识别出所述待处理文本中的品牌实体和商品分类实体,对于每个品牌实体和商品分类实体,在该实体的关联词列表属性中记录识别出该实体的词所包含的字,并在识别出该实体的词所包含的每个字的关联实体列表属性中记录该实体。
6.根据权利要求5所述的方法,其特征在于,所述步骤e进一步包括:对于分词后得到的每个词,标注相应的词性。
7.根据权利要求1所述的方法,其特征在于,所述步骤f中所确定出的关键词中不包含:关联实体列表属性中记录有商品属性名实体或商品属性值实体并且未记录有品牌实体和型号实体的特殊词;
所述关键词规则包括:
对于包含满足预设第一条件的字的每个词,将该词分别与每个关联实体列表属性中记录有型号实体的特殊词的组合,作为当前用于商品搜索的关键词;所述第一条件为关联实体列表属性中记录有品牌实体;
对于包含满足所述第一条件的字的每个词,将原始的所述待处理文本中以该词开始并以特殊词串结束的所有内容,作为当前用于商品搜索的关键词;
对于包含满足所述第一条件的字的每个词,将原始的所述待处理文本中以该词开始并以包含满足预设第二条件的字的词结束的所有内容,作为当前用于商品搜索的关键词;所述第二条件为关联实体列表属性中记录有商品分类实体;
对于关联实体列表属性中未记录有商品属性名实体和商品属性值实体的每个特殊词,如果在原始的所述待处理文本中,该特殊词之后紧跟着包含满足所述第二条件的字的词,则将该特殊词与紧跟其后的所述词的组合,作为当前用于商品搜索的关键词;
将关联实体列表属性中记录有型号实体的每个特殊词,作为当前用于商品搜索的关键词。
8.根据权利要求1所述的方法,其特征在于,步骤f中所述根据最大公共子串原则,对所述W个商品进行筛选,将筛选到的每个商品标记为商品实体,并记录所述商品实体的商品编号包括:
对于所述W个商品中的每个商品,将该商品的商品名与原始的所述待处理文本进行匹配,得到该商品名的最长公共子串;
对于所有W个商品中最长公共子串的长度最长的商品,将该商品的所述最长公共子串所包含的每个字和特殊词记录在该商品对应的商品实体的关联词列表属性中,并在该商品的所述最长公共子串所包含的每个字和特殊词的关联实体列表属性中记录该商品对应的商品实体。
9.根据权利要求1所述的方法,其特征在于,所述步骤g包括:
对于当前已识别出的每个商品相关实体,所述商品相关实体包括商品实体和商品分类实体,以该商品相关实体为关键词,查找系统的商品、商品分类、商品属性名和商品属性值的关联数据库,获得该商品相关实体关联的商品属性名和商品属性值,并获取所述商品属性名和商品属性值各自关联的词表,所述词表包括同义词和部分词;
将所获得的商品属性名、商品属性值以及所述词表中的每个词分别与所述待处理文本进行匹配,对于所述待处理文本中能够匹配的每个词,在组成该词的每个字的关联实体列表属性中,记录该词所在词表所属的商品属性名或商品属性值实体,并在该词所在词表所属的商品属性名或商品属性值实体中的关联词列表属性中,记录组成该词的字。
10.根据权利要求1所述的方法,其特征在于,所述步骤h包括:
h1、对于当前存在关联实体列表属性为空的每个所述特殊词,如果所述待处理文本中包含满足预设第二条件的字的词,则将每个包含满足所述第二条件的字的词分别与该特殊词的组合,作为当前的商品查询关键词,否则,将该特殊词作为当前的商品查询关键词;所述第二条件为关联实体列表属性中记录有商品分类实体;
h2、使用当前的商品查询关键词,搜索所述商品数据库;并从所搜索的商品中,选择出预设Q个商品;
h3、对于所述Q个商品中的每个商品,将该商品的商品名与原始的所述待处理文本进行匹配,得到该商品名的最长公共子串;
h4、利用所有Q个商品中最长公共子串的长度最长的商品,查询所述系统的商品、商品分类、商品属性名和商品属性值的关联数据库,识别出相应的商品属性名实体和商品属性值实体。
11.根据权利要求1所述的方法,其特征在于,所述步骤i中所述筛选包括:
步骤i1、利用当前已识别出的所有实体建立实体候选集合;
步骤i2、按照关联词列表属性中记录的字和特殊词的数量从大到小的顺序,对所述实体候选集合中的所有实体进行排序;
步骤i3、从所述实体候选集合中选择出最前面且未被选择过的实体,作为当前的筛选参照实体;
步骤i4、对于当前的筛选参照实体的关联词列表属性中的每个字和特殊词,将其关联实体列表属性中记录的除该筛选参照实体之外的其他实体,从所述实体候选集合中删除;
步骤i5、判断所述实体候选集合中是否还有未被选择过的实体,如果有,则执行步骤i3,否则,将当前所述实体候选集合中的所有实体确定出本次会话的所有命名实体。
CN201310674046.7A 2013-12-11 2013-12-11 命名实体的识别方法 Active CN103631948B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310674046.7A CN103631948B (zh) 2013-12-11 2013-12-11 命名实体的识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310674046.7A CN103631948B (zh) 2013-12-11 2013-12-11 命名实体的识别方法

Publications (2)

Publication Number Publication Date
CN103631948A CN103631948A (zh) 2014-03-12
CN103631948B true CN103631948B (zh) 2017-01-11

Family

ID=50212989

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310674046.7A Active CN103631948B (zh) 2013-12-11 2013-12-11 命名实体的识别方法

Country Status (1)

Country Link
CN (1) CN103631948B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109919175A (zh) * 2019-01-16 2019-06-21 浙江大学 一种结合属性信息的实体多分类方法

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104978356B (zh) * 2014-04-10 2019-09-06 阿里巴巴集团控股有限公司 一种同义词的识别方法及装置
CN105320674B (zh) * 2014-07-03 2020-05-12 腾讯科技(深圳)有限公司 一种领域本体库的建立方法、装置及服务器
CN104331395B (zh) * 2014-10-28 2017-11-03 北京京东尚科信息技术有限公司 从文本中识别中文商品名称的方法和装置
CN104572625A (zh) * 2015-01-21 2015-04-29 北京云知声信息技术有限公司 命名实体的识别方法
CN104750795B (zh) * 2015-03-12 2017-09-01 北京云知声信息技术有限公司 一种智能语义检索系统和方法
CN104657514B (zh) * 2015-03-24 2018-05-25 成都知数科技有限公司 基于电商用户行为数据的近义词识别方法
WO2016154866A1 (zh) * 2015-03-31 2016-10-06 王志强 查询商标时显示商业用途的方法以及信息提醒系统
CN105138631B (zh) 2015-08-20 2019-10-11 小米科技有限责任公司 知识库的构建方法及装置
CN106815201B (zh) * 2015-12-01 2021-06-08 北京国双科技有限公司 一种自动判定裁判文书判决结果的方法及装置
CN105574111A (zh) * 2015-12-10 2016-05-11 天津海量信息技术有限公司 基于企业属性库的企业实体认证方法
CN106547733A (zh) * 2016-10-19 2017-03-29 中国国防科技信息中心 一种面向特定文本的命名实体识别方法
CN106997390B (zh) * 2017-04-05 2020-07-07 安徽机器猫电子商务股份有限公司 一种设备配件或零部件商品交易信息搜索方法
CN109726612B (zh) * 2017-10-27 2021-04-16 北京搜狗科技发展有限公司 一种识别方法、装置和用于识别的装置
CN107944025A (zh) * 2017-12-12 2018-04-20 北京百度网讯科技有限公司 信息推送方法和装置
CN109933772B (zh) * 2017-12-15 2020-11-13 Tcl科技集团股份有限公司 语义分析方法及终端设备
CN109740159B (zh) * 2018-12-29 2022-04-26 北京泰迪熊移动科技有限公司 用于命名实体识别的处理方法及装置
CN110209812B (zh) * 2019-05-07 2022-04-22 北京地平线机器人技术研发有限公司 文本分类方法和装置
CN111178080B (zh) * 2020-01-02 2023-07-18 杭州涂鸦信息技术有限公司 一种基于结构化信息的命名实体识别方法及系统
CN111723575A (zh) * 2020-06-12 2020-09-29 杭州未名信科科技有限公司 识别文本的方法、装置、电子设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005022408A1 (en) * 2003-08-28 2005-03-10 British Telecommunications Public Limited Company Method and apparatus for storing and retrieving data using ontologies
EP2043004A1 (de) * 2007-09-24 2009-04-01 Martin Bode Datenbanksystem und Verfahren zum Aufnehmen, Speichern und Ausgeben von Datensätzen
CN102262634A (zh) * 2010-05-24 2011-11-30 北京大学深圳研究生院 一种自动问答方法及系统
CN102722558A (zh) * 2012-05-29 2012-10-10 百度在线网络技术(北京)有限公司 一种为用户推荐提问的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005022408A1 (en) * 2003-08-28 2005-03-10 British Telecommunications Public Limited Company Method and apparatus for storing and retrieving data using ontologies
EP2043004A1 (de) * 2007-09-24 2009-04-01 Martin Bode Datenbanksystem und Verfahren zum Aufnehmen, Speichern und Ausgeben von Datensätzen
CN102262634A (zh) * 2010-05-24 2011-11-30 北京大学深圳研究生院 一种自动问答方法及系统
CN102722558A (zh) * 2012-05-29 2012-10-10 百度在线网络技术(北京)有限公司 一种为用户推荐提问的方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109919175A (zh) * 2019-01-16 2019-06-21 浙江大学 一种结合属性信息的实体多分类方法
CN109919175B (zh) * 2019-01-16 2020-10-23 浙江大学 一种结合属性信息的实体多分类方法

Also Published As

Publication number Publication date
CN103631948A (zh) 2014-03-12

Similar Documents

Publication Publication Date Title
CN103631948B (zh) 命名实体的识别方法
US11354356B1 (en) Video segments for a video related to a task
CN103177075B (zh) 基于知识的实体检测和消歧
CN100478949C (zh) 具有实体检测的查询改写
JP5721818B2 (ja) 検索におけるモデル情報群の使用
CN103678576B (zh) 基于动态语义分析的全文检索系统
US9928296B2 (en) Search lexicon expansion
US10585927B1 (en) Determining a set of steps responsive to a how-to query
US20090248707A1 (en) Site-specific information-type detection methods and systems
US20090240638A1 (en) Syntactic and/or semantic analysis of uniform resource identifiers
EP2425353A1 (en) Method and apparatus for identifying synonyms and using synonyms to search
US9959326B2 (en) Annotating schema elements based on associating data instances with knowledge base entities
US20120323905A1 (en) Ranking data utilizing attributes associated with semantic sub-keys
CN105868255A (zh) 查询推荐方法及装置
KR20100106464A (ko) 데이터 클러스터와 유의어의 탐색과 수정에 대한 방법 및 시스템
EP2307951A1 (en) Method and apparatus for relating datasets by using semantic vectors and keyword analyses
US20110119261A1 (en) Searching using semantic keys
CN106227788A (zh) 一种以Lucene为基础的数据库查询方法
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN102915381B (zh) 基于多维语义的可视化网络检索呈现系统及呈现控制方法
US8538946B1 (en) Creating model or list to identify queries
US9875298B2 (en) Automatic generation of a search query
US8335791B1 (en) Detecting synonyms and merging synonyms into search indexes
US20100235342A1 (en) Tagging system using internet search engine
JPWO2018070026A1 (ja) 商品情報表示システム、商品情報表示方法、及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant