CN112115709B - 实体识别方法、装置、存储介质和电子设备 - Google Patents

实体识别方法、装置、存储介质和电子设备 Download PDF

Info

Publication number
CN112115709B
CN112115709B CN202010974867.2A CN202010974867A CN112115709B CN 112115709 B CN112115709 B CN 112115709B CN 202010974867 A CN202010974867 A CN 202010974867A CN 112115709 B CN112115709 B CN 112115709B
Authority
CN
China
Prior art keywords
standard
entity
determining
word
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010974867.2A
Other languages
English (en)
Other versions
CN112115709A (zh
Inventor
赵华宇
胡思琦
闫鹏
高仕才
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Didi Infinity Technology and Development Co Ltd
Original Assignee
Beijing Didi Infinity Technology and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Didi Infinity Technology and Development Co Ltd filed Critical Beijing Didi Infinity Technology and Development Co Ltd
Priority to CN202010974867.2A priority Critical patent/CN112115709B/zh
Publication of CN112115709A publication Critical patent/CN112115709A/zh
Application granted granted Critical
Publication of CN112115709B publication Critical patent/CN112115709B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种实体识别方法、装置、存储介质和电子设备,通过确定目标领域对应的标准实体名称索引和同义词库,和待识别的第一实体文本对应的第一词集合。基于标准实体名称索引对第一实体文本进行搜索,得到至少一个标准实体名称以及各标准实体名称对应的标准词集合。根据各标准词集合在所述同义词库中确定各第一实体名称对应的标准词,以确定对应的第二词集合。计算各标准词集合和对应的第二词集合的相似度筛选出一个标准实体名称作为识别得到的第二实体文本。本发明实施例通过建立目标领域专用的实体名称索引和同义词库,以对待识别内容自动进行实体识别,提高了实体识别过程的效率以及识别结果的准确性。

Description

实体识别方法、装置、存储介质和电子设备
技术领域
本发明涉及计算机技术领域,尤其涉及一种实体识别方法、装置、存储介质和电子设备。
背景技术
随着科技发展,人们可以通过计算机网络搜索自己需要的内容。但由于目前计算机的数据存储量庞大,在搜索过程中经常会获取到大量无关的搜索结果,降低搜索结果的准确率。因此,如何在大量的数据中匹配到需要搜索的信息,提高搜索效率是目前需要解决的问题。
发明内容
有鉴于此,本发明实施例提供了一种实体识别方法、装置、存储介质和电子设备,旨在提高实体识别过程的效率以及识别结果的准确率。
第一方面,本发明实施例提供了一种实体识别方法,所述方法包括:
确定目标领域对应的标准实体名称索引和同义词库,所述标准实体名称索引用于搜索目标领域的标准实体名称,所述同义词库中包括多个目标领域对应的实体名称组,各所述实体名称组中包括多个含义相同的实体名称;
确定待识别的第一实体文本对应的第一词集合,所述第一词集合中包括对所述第一实体文本分词后得到的多个第一实体名称;
基于所述标准实体名称索引对第一实体文本进行搜索,以确定至少一个标准实体文本以及各所述标准实体文本对应的标准词集合,所述标准词集合中包括对标准实体文本分词后得到的多个标准实体名称;
根据各所述标准词集合在所述同义词库中确定所述第一词集合中各所述第一实体名称对应的标准实体名称,以确定对应的第二词集合;
计算各所述标准词集合和对应的第二词集合的相似度,以确定目标标准词集合对应的标准实体文本为识别得到的第二实体文本。
第二方面,本发明实施例提供了一种实体识别装置,所述装置包括:
第一确定模块,用于确定目标领域对应的标准实体名称索引和同义词库,所述标准实体名称索引用于搜索目标领域的标准实体名称,所述同义词库中包括多个目标领域对应的实体名称组,各所述实体名称组中包括多个含义相同的实体名称;
第二确定模块,用于确定待识别的第一实体文本对应的第一词集合,所述第一词集合中包括对所述第一实体文本分词后得到的多个第一实体名称;
搜索模块,用于基于所述标准实体名称索引对第一实体文本进行搜索,以确定至少一个标准实体文本以及各所述标准实体文本对应的标准词集合,所述标准词集合中包括对标准实体文本分词后得到的多个标准实体名称;
分词模块,用于根据各所述标准词集合在所述同义词库中确定所述第一词集合中各所述第一实体名称对应的标准实体名称,以确定对应的第二词集合;
实体识别模块,用于计算各所述标准词集合和对应的第二词集合的相似度,以确定目标标准词集合对应的标准实体文本为识别得到的第二实体文本。
第三方面,本发明实施例提供了一种计算机可读存储介质,用于存储计算机程序指令,所述计算机程序指令在被处理器执行时实现如第一方面所述的方法。
第三方面,本发明实施例提供了一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面所述的方法。
本发明实施例通过确定目标领域对应的标准实体名称索引和同义词库,和待识别的第一实体文本对应的第一词集合。基于标准实体名称索引对第一实体文本进行搜索,得到至少一个标准实体名称以及各标准实体名称对应的标准词集合。根据各标准词集合在所述同义词库中确定各第一实体名称对应的标准词,以确定对应的第二词集合。计算各标准词集合和对应的第二词集合的相似度筛选出一个标准实体名称作为识别得到的第二实体文本。本发明实施例通过建立目标领域专用的实体名称索引和同义词库,进一步基于实体名称索引和同义词库确定待识别实体名称在目标领域对应的多个标准词集合和第二词集合,以通过计算标准词集合和对应的第二词集合的相似度对待识别内容自动进行实体识别,提高了实体识别过程的效率以及识别结果的准确性。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1为应用本发明实施例的实体识别方法的实体识别系统的示意图;
图2为本发明实施例的实体识别方法的流程图;
图3为本发明实施例的实体识别过程的示意图;
图4为本发明实施例的实体识别装置的示意图;
图5为本发明实施例的电子设备的示意图。
具体实施方式
以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
图1为用本发明实施例的实体识别方法的实体识别系统的示意图。如图1所示,所述实体识别系统包括服务器10和终端设备11。其中,所述服务器10用于接收终端设备11发送的待识别的第一实体文本,并对所述第一实体文本进行实体匹配。进一步地,所述服务器10在进行实体匹配后,可以将匹配结果或基于匹配结果生成的搜索信息发送至终端设备11。
本发明实施例可以应用于任何终端设备向服务器发送待识别实体名称,并通过服务器基于所述待识别实体名称进行实体识别的实体识别系统中。例如在音乐软件中搜索目标歌曲、在汽车软件搜索车型、在购物软件搜索商品以及在车辆配件库中搜索配件等应用场景。在本发明实施例中,所述服务器10可以是单个服务器、也可以是以分布式方式配置的服务器集群。所述终端设备11可以是能够运行计算机程序的、具有通信功能通用数据处理终端,例如,智能手机或平板电脑等。
以所述实体识别方法用于在车辆配件数据库中搜索车辆配件的应用场景为例进行说明。所述服务器10为部署了车辆配件数据库的服务器,所述终端设备11可以为司机使用的司机终端,所述车辆配件数据库中包括多个标准车辆配件名称和对应的车辆配件属性信息。在司机需要更换车辆配件或查询目前有需要的车辆配件的门店时,需要向服务器10发送待搜索的配件名称,以进行实体识别。所述服务器10根据接收到的配件名称进行实体识别,以通过本发明实施例的实体识别方法在车辆配件数据库中确定所述配件名称对应的标准车辆配件名称。可选地,服务器10还将所述标准车辆配件名称对应的车辆配件属性返回所述终端设备11。例如,当所述终端设备10需要查询当前需要的车辆配件的门店时,所述服务器11还可以根据识别得到的标准车辆配件名称确定对应的车辆配件属性信息,将所述标准车辆配件名称和车辆配件属性信息中的持有门店信息发送至终端设备11。
图2为本发明实施例的实体识别方法的流程图。如图2所示,所述实体识别方法包括以下步骤:
步骤S100、确定目标领域对应的标准实体名称索引和同义词库。
具体地,所述标准实体名称索引和同义词库与目标领域对应,根据目标领域的多个实体名称确定。例如,当所述目标领域为汽车维保领域时,所述标准实体名称索引和同义词库根据汽车维保领域的专用配件名称确定。当所述目标领域为半导体领域时,所述标准实体名称和同义词库根据半导体领域的专用材料、元器件等实体名称确定。其中,所述标准实体名称索引用于搜索目标领域的标准实体名称。所述同义词库中包括多个目标领域对应的实体名称组,各所述实体名称组中包括多个含义相同的实体名称。在本发明实施例中,确定目标领域对应的标准实体名称索引和同一词库包括以下步骤:
步骤S110、确定目标领域对应的专用实体文本集合以及标准实体文本集合。
具体地,所述专用实体文本集合中包括多个目标领域对应的专用实体文本,所述专用实体文本包括多个目标领域对应的实体名称。其中,所述实体名称可以为标准名称或非标准名称。例如对于汽车维保领域,所述专用实体文本集合中可以包括“前保险杠支架”、“前保左装饰条”、“离合器助力泵”和“后羊角”等汽车维保领域的专用实体文本。各所述专用实体本文中还包括“前保险杠”、“支架”、“离合器”、“助力泵”、“转向节”等行业标准的专用配件名称,以及“前保”、“装饰条”等在行业内被广泛应用的非标准配件名称。所述标准实体文本集合中包括目标领域对应的多个标准实体文本,各所述标准实体文本中包括多个目标领域对应的标准实体名称。例如对于汽车维保领域,所述标准实体文本集合中可以包括“前发动机绝缘子”和“离合器分离轴承”等行业标准的专用实体文本,其中包括“发动机”、“绝缘子”、“离合器”和“分离轴承”等行业标准的专用配件名称。
可选地,所述目标领域的标准名称和非标准名称可以从网络词库、目标领域的专用字典、技术手册等渠道获取。
步骤S120、根据所述专用实体文本集合确定同义词库。
具体地,服务器在确定同义词库时,先对所述专用实体文本集合中各所述专用实体文本进行分词处理,以得到多个目标领域对应的实体名称。再通过人工识别、人工智能模型识别等方式将分词得到的多个实体名称进行同义词匹配,以将含义相同的实体名称以数组方式存储为实体名称组。服务器在确定多个实体名称组后,根据各所述实体名称组确定同义词库。
以汽车维保领域为例进行说明。当所述专用实体文本集合中包括“前保险杠支架”、“前蒙皮左饰条”、“前保左装饰条”、“后悬挂支架”、“后羊角”和“后转向节”时,服务器对所述专用实体文本集合进行分词处理后得到以下多个专用实体名称:“前保险杠”、“支架”、“前保”、“前蒙皮”、“左”、“饰条”、“装饰条”、“后”、“悬挂支架”、“羊角”和“转向节”。服务器进一步通过同义词匹配得到以下实体名称组{前保险杠,前保,前蒙皮}、{支架}、{左}、{饰条,装饰条}、{后}和{悬挂支架,羊角,转向节}。最终根据各所述实体名称组确定同义词库为{“前保险杠,前保,前蒙皮”、“支架”、“左”、“饰条,装饰条”、“后”、“悬挂支架,羊角,转向节”}。
步骤S130、根据所述专用实体文本集合和标准实体文本集合确定标准实体名称索引。
具体地,所述标准实体名称索引中包括目标领域对应的专用实体文本中各专用实体名称,用于作为标准实体文本集合的指针。在服务器获取到待进行实体识别的实体文本时,可以根据所述标准实体名称索引进行搜索,以顺着指针找到包含所述待识别的实体名称信息的标准实体文本。例如,当服务器获取到带进行实体识别的实体文本为“左保前装饰条”时,根据包括“左保”、“前”、“装饰条”的标准实体名称索引进行搜索,可以在标准实体文本集合中搜索到“左保”、“前”、“装饰条”对应的标准实体文本。例如“左保险杠前饰条”、“左保险杠后饰条”、“左保险杠支架”以及“右保险杠前饰条”等标准实体文本。
在本发明实施例中,所述确定标准实体名称索引的过程还包括以下步骤:
步骤S131、对所述专用实体文本集合中各所述专用实体文本进行分词处理,以确定所述目标领域对应的专用实体名称集合。
具体地,服务器对所述专用实体文本集合中各所述专用实体文本进行分词处理后,得到多个目标领域对应的实体名称,进一步直接根据目标领域对应的多个实体名称即可确定专用实体名称集合。所述服务器还可以根据预设的排序规则对所述专用实体名称集合中各所述专用实体名称进行排序。
可选地,所述服务器可以根据各所述实体名称在搜索过程中的重要性进行排序。具体而言,可以通过确定分词得到的各实体名称对应的词性,以根据对应的词性在搜索过程中的重要性确定各所述实体名称在所述标准实体名称索引中的顺序。例如,对于车辆维保领域的专用实体名称,服务器可以确定以下与实体名称对应的词性“物料”、“颜色”、“位置”、“形状”、“来源”和“材质”,并根据各所述词性在搜索过程中的重要性进行排序得到“物料”、“位置”、“形状”、“材质”、“颜色”和“来源”,以分别根据上述排序结果对各所述车辆维保领域的实体名称进行排序。
步骤S132、根据所述同义词库、专用实体名称集合和标准实体文本集合确定标准实体名称索引。
具体地,所述服务器在确定目标领域对应的专用实体名称集合后,在所述专用实体名称集合中各所述专用实体名称与标准实体文本集合中各所述标准文本之间建立映射关系,即可以确定对应的标准实体名称索引。所述服务器先将所述专用实体名称集合作为字典二次开发分词器,以得到目标领域对应的专用分词器。所述分词器例如可以是IK分词器、stanford分词器、word分词器等。
服务器在确定专用分词器后,根据所述专用分词器对标准实体文本集合中各标准实体文本进行分词以确定多个标准实体名称,在各所述标准实体名称和对应标准实体文本之间建立映射关系。同时,在同义词库中确定与各所述标准实体名称含义相同的专用实体名称,并在所述含义相同的专用实体名称与标准实体文本之间也建立对应的映射关系。仍以车辆维保领域为例进行说明,当所述标准实体名称“前保险杠左饰条”分词得到“前保险杠”、“左”、“饰条”后,分别在所述“前保险杠”、“左”、“饰条”和“前保险杠左饰条”之间建立映射关系。进一步地,当所述同义词库中包括“前保险杠,前保”以及“饰条,装饰条”时,服务器还在“前保”和“前保险杠左饰条”之间以及“装饰条”和“前保险杠左饰条”之间建立映射关系。
进一步地,所述服务器可以根据步骤S131中所述的排序规则对已经建立映射关系的各所述专用实体名称进行排序,得到标准实体名称索引。
步骤S200、确定待识别的第一实体文本对应的第一词集合。
具体地,所述第一实体文本为待进行实体识别的文本信息,可以通过终端设备发送至服务器,由服务器进行实体识别过程。所述第一词集合中包括所述第一实体文本分词得到的多个第一实体名称。所述服务器在接收到第一实体文本后,先对所述第一实体文本进行分词处理以得到多个第一实体名称,根据各所述第一实体名称确定第一词集合。
以所述终端设备在需要查询汽车配件的应用场景为例进行说明。终端设备向服务器发送的待识别第一实体文本为“前保左装饰条(白银)”时,所述服务器对所述第一实体文本“前保左装饰条(白银)”进行分词得到的第一词集合为{“前保”,“左”,“装饰条”,“白银”}。
步骤S300、基于所述标准实体名称索引对第一实体文本进行搜索,以确定至少一个标准实体文本以及各所述标准实体文本对应的标准词集合。
具体地,所述服务器确定第一实体文本后,还基于所述标准实体名称索引对第一实体文本进行搜索,以在所述标准实体名称索引对应的标准实体文本集合中获取多个标准实体文本。进一步地,服务器还根据各所述标准实体文本确定对应的标准词集合。所述标准词集合中包括对应标准实体文本分词后得到的多个标准实体名称。可选地,所述服务器可以预先设定搜索得到的标准实体文本数量,例如可以根据各所述第一实体名称在所述标准实体名称索引中的顺序确定预定数量的标准实体文本。
在本发明实施例中,所述确定至少一个标准实体文本以及各所述标准实体文本对应的标准词集合的过程包括以下步骤:
步骤S310、基于所述标准实体名称索引对第一实体文本进行搜索,以确定至少一个标准实体文本。
具体地,所述服务器确定所述第一实体文本分词后得到的各所述第一实体名称,基于所述标准实体名称索引和各标准实体文本的映射关系确定第一实体名称对应的至少一个标准实体文本。例如,当所述第一实体文本为“前保左装饰条(白银)”,分词后得到的各第一实体名称分别为“前保”、“左”、“装饰条”和“白银”。所述服务器根据所述标准实体名称索引和各标准实体文本的映射关系可以确定所述第一实体文本对应的标准实体文本为“前保险杠左饰条”、“前保险杠支架”、“前保险杠右饰条”、“后保险杠左饰条”等。
步骤S320、对各所述标准实体文本进行分词处理,以得到包括多个第二实体名称的标准词集合。
具体地,所述服务器在确定第一实体文本对应的多个标准实体文本后,对各所述标准实体文本进行分词处理以得到多个对应的标准实体名称。对于各所述标准实体文本,将分词后得到的多个标准实体名称作为第二实体名称确定标准词集合。以所述标准实体文本为“前保险杠左饰条”为例进行说明。所述服务器对所述标准实体文本进行分词处理确定的标准词集合为{“前保险杠”,“左”,“饰条”}。
步骤S400、根据各所述标准词集合在所述同义词库中确定所述第一词集合中各所述第一实体名称对应的标准实体名称,以确定对应的第二词集合。
具体地,所述服务器通过步骤S300搜索确定的各标准词集合对所述第一词集合中的第一实体名称进行标准实体名称替换,以得到与所述第一实体文本内容相同且符合标准的第二词集合。
步骤S410、确定目标标准词集合。
具体地,在所述服务器搜索得到多个与第一实体名称对应的标准词集合后,在多个标准词集合中选择目标标准词集合。所述服务器根据所述目标标准词集合对所述第一词集合进行标准实体名称替换,得到对应的第二词集合。服务器在确定目标标准词集合对应的第二词集合后,再重新选择一个标准词集合作为对应的目标标准词集合,以确定对应的第二词集合,直到确定全部标准词集合对应的第二词集合为止。
步骤S420、在所述同义词库中确定各所述第一实体名称对应的至少一个同义词。
具体地,服务器在所述同义词库中确定各所述第一实体名称所在的实体名称组,获取所述实体名称组中与所述第一实体名称含义相同的至少一个同义实体名称作为同义词。例如,当所述第一实体名称为“前保”,所述同义词库中包括所述第一实体名称的实体名称组为{“前保”,“前保险杠”,“前保险皮”,“前保险杠皮”,“前蒙皮”},确定所述第一实体名称对应的同义词包括“前保险杠”、“前保险皮”、“前保险杠皮”和“前蒙皮”。
步骤S430、响应于存在与所述目标标准词集合中第二实体名称相同的同义词,通过所述同义词替换对应的第一实体名称以确定对应的第二词集合。
具体地,服务器确定各所述第一实体名称对应的同义词后,确定所述目标标准词集合中是否存在与所述同义词相同的第二实体名称。当所述目标标准词集合中包括与所述同义词相同的第二实体名称时,在所述通过所述同义词替换所述第一词集合中对应的第一实体名称。当所述目标标准词集合中不包括与所述同义词相同的第二实体名称时,保留所述第一词集合中对应的第一实体名称。所述服务器在基于所述目标标准词集合对第一词集合中各第一实体名称均完成同义词替换后,确定替换后的词集合为所述目标标准词集合对应的第二词集合。
以所述第一词集合为{“前保”,“左”,“装饰条”,“白银”},目标标准词集合为{“前保险杠”,“左”,“饰条”}为例进行说明。当所述同义词库中包括实体名称组{“前保”,“前保险杠”,“前保险皮”,“前保险杠皮”,“前蒙皮”}、{“左”}、{“饰条”,“装饰条”}和{“白银”,“银”,“镀银”}时,所述目标标准词集合对应的第二词集合为{“前保险杠”,“左”,“饰条”,“白银”}。
步骤S500、计算各所述标准词集合和对应的第二词集合的相似度,以确定目标标准词集合对应的标准实体名称为识别得到的第二实体文本。
具体地,服务器在确定各所示标准词集合对应的第二词集合后,计算对应的标准词集合和第二词集合的相似度,以根据预设的筛选规则在所述标准词集合中选择目标标准词集合,将所述目标标准词集合对应的标准实体名称作为最终识别得到的第二实体文本输出。其中,所述筛选规则例如可以是确定相似度最高的标准词集合为目标标准词集合,将所述目标标准词集合对应的标准实体名称作为最终识别得到的第二实体文本输出至终端设备。
在本发明实施例中,所述确定第二实体文本的过程可以包括以下步骤:
步骤S510、确定各所述标准词集合对应的标准向量,以及对应的第二词集合对应的同义向量。
具体地,所述服务器可以将各所述标准词集合和对应的第二词集合转换为对应的向量表示,即将所述标准词集合转换为对应的标准向量,将第二词集合转换为对应的同义向量。以便服务器进一步通过计算标准向量和对应同义向量的相似度确定标准词集合各对应第二词集合的相似度。
在本发明实施例中,所述确定标准向量和同义向量的过程可以包括以下步骤:
步骤S511、确定词性权重集合。
具体地,所述词性权重集合与目标领域对应,其中包括多个目标领域专用实体名称的词性和各词性对应的权重。例如,对于车辆维保领域的专用实体名称,服务器可以确定以下与实体名称对应的词性“物料”、“颜色”、“位置”、“形状”、“来源”和“材质”,并依次设定各多数词性对应的权重为1、0.1、0.1、0.8、0.3和0.5。最终确定的词性权重集合为{“物料:1”,“颜色:0.1”,“位置:0.1”,“形状:0.8”,“来源:0.3”,“材质:0.5”}。
步骤S512、确定各所述标准词集合中各第二实体名称的词性,以在所述词性权重集合中确定对应的第一权重集合。
具体地,所述服务器确定各所述标准词集合中各第二实体名称的词性,在所述词性权重集合中确定各所述第二实体名称的词性对应的第一权重,以确定第一权重集合。例如,当所述标准词集合为{“前保险杠”,“左”,“饰条”}时,所述服务器判断所述标准词集合中各第二实体名称对应的词性分别为物料、位置和物料。并进一步根据各所述第二实体名称的词性在所述词性权重集合{“物料:1”,“颜色:0.1”,“位置:0.1”,“形状:0.8”,“来源:0.3”,“材质:0.5”}中分别确定对应的第一权重为1、0.1和1,以确定第一权重集合为{1,0.1,1}。
步骤S513、确定各所述标准词集合对应的第二词集合中各词的词性,以在所述词性权重集合中确定对应的第二权重集合。
具体地,所述第二词集合中各词分别对应一个同义词替换前的第一实体名称或替换后的第二实体名称。所述服务器确定各所述标准词集合对应的第二词集合中各实体名称的词性,在所述词性权重集合中确定各所述实体名称的词性对应的第二权重,以确定第二权重集合。例如,当所述第二词集合为{“前保险杠”,“左”,“饰条”,“白银”}时,所述服务器判断所述第二词集合中各实体名称对应的词性分别为物料、位置、物料和颜色。并进一步根据各所述实体名称的词性在所述词性权重集合{“物料:1”,“颜色:0.1”,“位置:0.1”,“形状:0.8”,“来源:0.3”,“材质:0.5”}中分别确定对应的第二权重为1、0.1、1和0.1,以确定第二权重集合为{1,0.1,1,0.1}。
步骤S514、根据各所述第一权重集合确定对应的标准向量,并根据各所述第二权重集合确定对应的同义向量。
具体地,在确定各所述第一权重集合和对应的第二权重集合后,进一步根据第一权重集合确定对应的标准向量,并根据各所述第二权重集合确定对应的同义向量。在确定对应向量的过程中,早所述第一权重集合和第二权重集合中的元素数量不同的情况下。所述服务器可以先将对应的第一权重集合和第二权重集合中元素数量多的权重集合转换为对应的向量。进一步地,再将元素数量少的权重集合中增加预定数量值为0的元素后再转换为对应的向量,所述预定数量值为两个权重集合中元素数量的差值。可选地,当所述第一权重集合和第二权重集合中的元素数量相同的情况下,所述服务器直接将所述第一权重集合转换为对应的标准向量,将所述第二权重集合转换为对应的同义向量。
以所述服务器确定的第一权重集合为{1,0.1,1},第二权重集合为{1,0.1,1,0.1}为例进行说明。所述服务器直接根据第二权重集合确定对应的同义向量为(1,0.1,1,0.1),并将所述第一权重集合中补充一个值为0的元素后转换为对应的标准向量(1,0.1,1,0)。
步骤S520、计算各所述标准向量和对应的同义向量的相似度,以确定目标标准向量对应的标准词集合为目标标准词集合。
具体地,所述标准向量和同义向量可以通过计算余弦相似度的方式得到对应的相似度值。所述服务器在确定各标准向量和对应同义向量的余弦相似度后,在其中选择相似度值最大的标准向量作为目标标准向量。以进一步地确定所述目标标准向量对应的标准词集合为目标标准词集合。
步骤S530、确定所述目标标准词集合对应的标准实体名称为识别得到的第二实体文本。
具体地,所述服务器根据步骤S520确定了目标标准词集合后,确定所述目标标准词集合对应的标准实体名称为识别得到的第二实体文本。可选地,所述服务器确定第二实体文本后,将所述第二实体文本发送至终端设备,以通过所述终端设备显示。进一步地,所述服务器在计算各所述标准词集合和对应的第二词集合的相似度后,还可以根据预设的识别规则选择预定数量的第二实体文本返回至终端设备,以通过终端设备显示多个第二实体文本。
图3为本发明实施例的实体识别过程的示意图。如图3所示,所述实体识别过程为通过终端设备向服务器发送待识别的第一实体文本30,以进行实体识别确定第二实体文本36返回至终端设备。
具体地,所述服务器在接收到第一实体文本30后,通过分词处理确定第一实体文本30对应的第一词集合31。同时,还通过服务器预设的标准实体名称索引搜索得到多个标准实体文本32,并进一步对各所述标准实体文本32进行分词处理以确定对应的标准词集合33。所述服务器根据第一词集合31和各所述标准词集合33查询同义词库,以对第一词集合31中的第一实体名称进行同义词替换,确定第二词集合34。所述服务器在确定各所述标准词集合33对应的第二词集合34后,计算所述标准词集合33和对应的第二词集合34之间的相似度35,以最终根据各所述标准词集合33对应的相似度35确定至少一个目标标准词集合33。所述服务器根据所述目标标准词集合33确定对应的标准实体文本为第二实体文本36,将所述第二实体文本36返回至终端设备显示。
本发明实施例的实体识别方法通过建立目标领域专用的标准实体名称索引和同义词库对待识别内容自动进行实体识别,以通过标准实体名称索引确定待识别内容对应的标准实体文本,并通过同义词库对待识别内容中非标准实体名称替换为标准实体名称。通过计算标准实体文本和替换标准实体名称后的待识别内容的相似度确定实体识别结果,提高了实体识别过程的效率以及识别结果的准确性。
图4为本发明实施例的实体识别装置的示意图。如图4所示,所述实体识别装置包括第一确定模块40、第二确定模块41、搜索模块42、分词模块43和实体识别模块44。
具体地,第一确定模块40用于确定目标领域对应的标准实体名称索引和同义词库,所述标准实体名称索引用于搜索目标领域的标准实体名称,所述同义词库中包括多个目标领域对应的实体名称组,各所述实体名称组中包括多个含义相同的实体名称。第二确定模块41用于确定待识别的第一实体文本对应的第一词集合,所述第一词集合中包括对所述第一实体文本分词后得到的多个第一实体名称。搜索模块42用于基于所述标准实体名称索引对第一实体文本进行搜索,以确定至少一个标准实体文本以及各所述标准实体文本对应的标准词集合,所述标准词集合中包括对标准实体文本分词后得到的多个标准实体名称。分词模块43用于根据各所述标准词集合在所述同义词库中确定所述第一词集合中各所述第一实体名称对应的标准实体名称,以确定对应的第二词集合。实体识别模块44用于计算各所述标准词集合和对应的第二词集合的相似度,以确定目标标准词集合对应的标准实体文本为识别得到的第二实体文本。
进一步地,所述第一确定模块包括:
名称集合确定子模块,用于确定目标领域对应的专用实体文本集合以及标准实体文本集合;
同义词库确定子模块,用于根据所述专用实体文本集合确定同义词库;
索引确定子模块,用于根据所述专用实体文本集合、标准实体文本集合和同义词库确定标准实体名称索引。
进一步地,所述索引确定子模块包括:
词集合确定单元,用于对所述专用实体文本集合中各所述专用实体文本进行分词处理,以确定所述目标领域对应的专用实体名称集合;
索引确定单元,用于根据所述同义词库、专用实体名称集合和标准实体文本集合确定标准实体名称索引。
进一步地,所述第二确定模块包括:
第一名称确定子模块,用于确定待识别的第一实体文本;
第一分词子模块,用于对所述第一实体文本进行分词处理,以根据分词后得到的多个第一实体名称确定第一词集合。
进一步地,所述搜索模块包括:
第二名词确定子模块,用于基于所述标准实体名称索引对第一实体文本进行搜索,以确定至少一个标准实体文本;
第二分词子模块,用于对各所述标准实体文本进行分词处理,以得到包括多个第二实体名称的标准词集合,所述第二实体名称为标准实体文本分词得到的标准实体名称。
进一步地,所述分词模块包括:
目标标准词集合确定子模块,用于确定目标标准词集合;
同义词确定子模块,用于在所述同义词库中确定各所述第一实体名称对应的至少一个同义词;
同义词替换子模块,用于响应于存在与所述目标标准词集合中第二实体名称相同的同义词,通过所述同义词替换对应的第一实体名称以确定对应的第二词集合。
进一步地,所述实体识别模块包括:
向量确定子模块,用于确定各所述标准词集合对应的标准向量,以及对应的第二词集合对应的同义向量,所述标准向量用于表征对应的标准词集合,所述第同义向量用于表征对应的第二词集合;
相似度计算子模块,用于计算各所述标准向量和对应的同义向量的相似度,以确定目标标准向量对应的标准词集合为目标标准词集合;
实体识别子模块,用于确定所述目标标准词集合对应的标准实体名称为识别得到的第二实体文本。
进一步地,所述向量确定子模块包括:
权重集合确定单元,用于确定词性权重集合,所述词性权重集合中包括多个词性和对应的权重;
第一权重集合确定单元,用于确定各所述标准词集合中各第二实体名称的词性,以在所述词性权重集合中确定对应的第一权重集合;
第二权重集合确定单元,用于确定各所述标准词集合对应的第二词集合中各词的词性,以在所述词性权重集合中确定对应的第二权重集合;
向量确定单元,用于根据各所述第一权重集合确定对应的标准向量,并根据各所述第二权重集合确定对应的同义向量。
进一步地,所述相似度计算子模块包括:
相似度计算单元,用于计算各所述标准向量和对应的同义向量的余弦相似度得到相似度值;
目标词向量确定单元,用于确定相似度值最大的标准词向量为目标标准词向量;
目标标准词集合确定单元,用于确定所述目标标准词向量对应的标准词集合为目标标准词集合。
本发明实施例的实体识别装置通过建立目标领域专用的标准实体名称索引和同义词库对待识别内容自动进行实体识别,以通过标准实体名称索引确定待识别内容对应的标准实体文本,并通过同义词库对待识别内容中非标准实体名称替换为标准实体名称。通过计算标准实体文本和替换标准实体名称后的待识别内容的相似度确定实体识别结果,提高了实体识别过程的效率以及识别结果的准确性。
图5为本发明实施例的电子设备的示意图。如图5所示,图5所示的电子设备为通用地址查询装置,其包括通用的计算机硬件结构,其至少包括处理器50和存储器51。处理器50和存储器51通过总线52连接。存储器51适于存储处理器50可执行的指令或程序。处理器50可以是独立的微处理器,也可以是一个或者多个微处理器集合。由此,处理器50通过执行存储器51所存储的指令,从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线52将上述多个组件连接在一起,同时将上述组件连接到显示控制器53和显示装置以及输入/输出(I/O)装置54。输入/输出(I/O)装置54可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地,输入/输出装置54通过输入/输出(I/O)控制器55与系统相连。
本领域的技术人员应明白,本申请的实施例可提供为方法、装置(设备)或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品。
本申请是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程。
这些计算机程序指令可以存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现流程图一个流程或多个流程中指定的功能。
也可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。
本发明的另一实施例涉及一种非易失性存储介质,用于存储计算机可读程序,所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指定相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (20)

1.一种实体识别方法,其特征在于,所述方法包括:
确定目标领域对应的标准实体名称索引和同义词库,所述标准实体名称索引用于搜索目标领域的标准实体名称,所述同义词库中包括多个目标领域对应的实体名称组,各所述实体名称组中包括多个含义相同的实体名称;
确定待识别的第一实体文本对应的第一词集合,所述第一词集合中包括对所述第一实体文本分词后得到的多个第一实体名称;
基于所述标准实体名称索引对第一实体文本进行搜索,以确定至少一个标准实体文本以及各所述标准实体文本对应的标准词集合,所述标准词集合中包括对标准实体文本分词后得到的多个第二实体名称;
根据各所述标准词集合在所述同义词库中确定所述第一词集合中各所述第一实体名称对应的标准实体名称,以确定对应的第二词集合,所述标准实体名称为第一实体名称在同义词库中的同义词,且与所述标准词集合中的一个第二实体名称相同;
计算各所述标准词集合和对应的第二词集合的相似度,以确定目标标准词集合对应的标准实体文本为识别得到的第二实体文本。
2.根据权利要求1所述的方法,其特征在于,所述确定目标领域对应的标准实体名称索引和同义词库包括:
确定目标领域对应的专用实体文本集合以及标准实体文本集合;
根据所述专用实体文本集合确定同义词库;
根据所述专用实体文本集合、标准实体文本集合和同义词库确定标准实体名称索引。
3.根据权利要求2所述的方法,其特征在于,所述根据所述专用实体文本集合、标准实体文本集合和同义词库确定标准实体名称索引包括:
对所述专用实体文本集合中各所述专用实体文本进行分词处理,以确定所述目标领域对应的专用实体名称集合;
根据所述同义词库、专用实体名称集合和标准实体文本集合确定标准实体名称索引。
4.根据权利要求1所述的方法,其特征在于,所述确定待识别的第一实体文本对应的第一词集合包括:
确定待识别的第一实体文本;
对所述第一实体文本进行分词处理,以根据分词后得到的多个第一实体名称确定第一词集合。
5.根据权利要求1所述的方法,其特征在于,所述基于所述标准实体名称索引对第一实体文本进行搜索,以确定至少一个标准实体文本以及各所述标准实体文本对应的标准词集合包括:
基于所述标准实体名称索引对第一实体文本进行搜索,以确定至少一个标准实体文本;
对各所述标准实体文本进行分词处理,以得到包括多个第二实体名称的标准词集合,所述第二实体名称为标准实体文本分词得到的标准实体名称。
6.根据权利要求1所述的方法,其特征在于,所述根据各所述标准词集合在所述同义词库中确定所述第一词集合中各所述第一实体名称对应的标准实体名称,以确定对应的第二词集合包括:
确定目标标准词集合;
在所述同义词库中确定各所述第一实体名称对应的至少一个同义词;
响应于存在与所述目标标准词集合中第二实体名称相同的同义词,通过所述同义词替换对应的第一实体名称以确定对应的第二词集合。
7.根据权利要求1所述的方法,其特征在于,所述计算各所述标准词集合和对应的第二词集合的相似度,以确定目标标准词集合对应的标准实体文本为识别得到的第二实体文本包括:
确定各所述标准词集合对应的标准向量,以及对应的第二词集合对应的同义向量,所述标准向量用于表征对应的标准词集合,所述同义向量用于表征对应的第二词集合;
计算各所述标准向量和对应的同义向量的相似度,以确定目标标准向量对应的标准词集合为目标标准词集合;
确定所述目标标准词集合对应的标准实体名称为识别得到的第二实体文本。
8.根据权利要求7所述的方法,其特征在于,所述确定各所述标准词集合对应的标准向量,以及对应的第二词集合对应的同义向量包括:
确定词性权重集合,所述词性权重集合中包括多个词性和对应的权重;
确定各所述标准词集合中各第二实体名称的词性,以在所述词性权重集合中确定对应的第一权重集合;
确定各所述标准词集合对应的第二词集合中各词的词性,以在所述词性权重集合中确定对应的第二权重集合;
根据各所述第一权重集合确定对应的标准向量,并根据各所述第二权重集合确定对应的同义向量。
9.根据权利要求7所述的方法,其特征在于,所述计算各所述标准向量和对应的同义向量的相似度,以确定目标标准向量对应的标准词集合为目标标准词集合包括:
计算各所述标准向量和对应的同义向量的余弦相似度得到相似度值;
确定相似度值最大的标准词向量为目标标准词向量;
确定所述目标标准词向量对应的标准词集合为目标标准词集合。
10.一种实体识别装置,其特征在于,所述装置包括:
第一确定模块,用于确定目标领域对应的标准实体名称索引和同义词库,所述标准实体名称索引用于搜索目标领域的标准实体名称,所述同义词库中包括多个目标领域对应的实体名称组,各所述实体名称组中包括多个含义相同的实体名称;
第二确定模块,用于确定待识别的第一实体文本对应的第一词集合,所述第一词集合中包括对所述第一实体文本分词后得到的多个第一实体名称;
搜索模块,用于基于所述标准实体名称索引对第一实体文本进行搜索,以确定至少一个标准实体文本以及各所述标准实体文本对应的标准词集合,所述标准词集合中包括对标准实体文本分词后得到的多个第二实体名称;
分词模块,用于根据各所述标准词集合在所述同义词库中确定所述第一词集合中各所述第一实体名称对应的标准实体名称,以确定对应的第二词集合,所述标准实体名称为第一实体名称在同义词库中的同义词,且与所述标准词集合中的一个第二实体名称相同;
实体识别模块,用于计算各所述标准词集合和对应的第二词集合的相似度,以确定目标标准词集合对应的标准实体文本为识别得到的第二实体文本。
11.根据权利要求10所述的装置,其特征在于,所述第一确定模块包括:
名称集合确定子模块,用于确定目标领域对应的专用实体文本集合以及标准实体文本集合;
同义词库确定子模块,用于根据所述专用实体文本集合确定同义词库;
索引确定子模块,用于根据所述专用实体文本集合、标准实体文本集合和同义词库确定标准实体名称索引。
12.根据权利要求11所述的装置,其特征在于,所述索引确定子模块包括:
词集合确定单元,用于对所述专用实体文本集合中各所述专用实体文本进行分词处理,以确定所述目标领域对应的专用实体名称集合;
索引确定单元,用于根据所述同义词库、专用实体名称集合和标准实体文本集合确定标准实体名称索引。
13.根据权利要求10所述的装置,其特征在于,所述第二确定模块包括:
第一名称确定子模块,用于确定待识别的第一实体文本;
第一分词子模块,用于对所述第一实体文本进行分词处理,以根据分词后得到的多个第一实体名称确定第一词集合。
14.根据权利要求10所述的装置,其特征在于,所述搜索模块包括:
第二名词确定子模块,用于基于所述标准实体名称索引对第一实体文本进行搜索,以确定至少一个标准实体文本;
第二分词子模块,用于对各所述标准实体文本进行分词处理,以得到包括多个第二实体名称的标准词集合,所述第二实体名称为标准实体文本分词得到的标准实体名称。
15.根据权利要求10所述的装置,其特征在于,所述分词模块包括:
目标标准词集合确定子模块,用于确定目标标准词集合;
同义词确定子模块,用于在所述同义词库中确定各所述第一实体名称对应的至少一个同义词;
同义词替换子模块,用于响应于存在与所述目标标准词集合中第二实体名称相同的同义词,通过所述同义词替换对应的第一实体名称以确定对应的第二词集合。
16.根据权利要求10所述的装置,其特征在于,所述实体识别模块包括:
向量确定子模块,用于确定各所述标准词集合对应的标准向量,以及对应的第二词集合对应的同义向量,所述标准向量用于表征对应的标准词集合,所述同义向量用于表征对应的第二词集合;
相似度计算子模块,用于计算各所述标准向量和对应的同义向量的相似度,以确定目标标准向量对应的标准词集合为目标标准词集合;
实体识别子模块,用于确定所述目标标准词集合对应的标准实体名称为识别得到的第二实体文本。
17.根据权利要求16所述的装置,其特征在于,所述向量确定子模块包括:
权重集合确定单元,用于确定词性权重集合,所述词性权重集合中包括多个词性和对应的权重;
第一权重集合确定单元,用于确定各所述标准词集合中各第二实体名称的词性,以在所述词性权重集合中确定对应的第一权重集合;
第二权重集合确定单元,用于确定各所述标准词集合对应的第二词集合中各词的词性,以在所述词性权重集合中确定对应的第二权重集合;
向量确定单元,用于根据各所述第一权重集合确定对应的标准向量,并根据各所述第二权重集合确定对应的同义向量。
18.根据权利要求16所述的装置,其特征在于,所述相似度计算子模块包括:
相似度计算单元,用于计算各所述标准向量和对应的同义向量的余弦相似度得到相似度值;
目标词向量确定单元,用于确定相似度值最大的标准词向量为目标标准词向量;
目标标准词集合确定单元,用于确定所述目标标准词向量对应的标准词集合为目标标准词集合。
19.一种计算机可读存储介质,用于存储计算机程序指令,其特征在于,所述计算机程序指令在被处理器执行时实现如权利要求1-9中任一项所述的方法。
20.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-9中任一项所述的方法。
CN202010974867.2A 2020-09-16 2020-09-16 实体识别方法、装置、存储介质和电子设备 Active CN112115709B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010974867.2A CN112115709B (zh) 2020-09-16 2020-09-16 实体识别方法、装置、存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010974867.2A CN112115709B (zh) 2020-09-16 2020-09-16 实体识别方法、装置、存储介质和电子设备

Publications (2)

Publication Number Publication Date
CN112115709A CN112115709A (zh) 2020-12-22
CN112115709B true CN112115709B (zh) 2021-06-04

Family

ID=73803196

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010974867.2A Active CN112115709B (zh) 2020-09-16 2020-09-16 实体识别方法、装置、存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN112115709B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113268987B (zh) * 2021-05-26 2023-08-11 北京百度网讯科技有限公司 一种实体名称识别方法、装置、电子设备和存储介质
CN115098617A (zh) * 2022-06-10 2022-09-23 杭州未名信科科技有限公司 三元组关系抽取任务的标注方法、装置、设备及存储介质
CN115545809B (zh) * 2022-12-02 2023-05-12 广州数说故事信息科技有限公司 电商商品的标品库构建方法、数据对齐方法、装置和设备
CN116227472B (zh) * 2023-03-06 2024-05-07 成都工业学院 一种bert-flat实体识别的配件同义词库构建法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101630314A (zh) * 2008-07-16 2010-01-20 中国科学院自动化研究所 一种基于领域知识的语义查询扩展方法
CN105320715A (zh) * 2014-10-22 2016-02-10 武汉理工大学 基于本体的语义查询方法
CN106503148A (zh) * 2016-10-21 2017-03-15 东南大学 一种基于多知识库的表格实体链接方法
CN106934020A (zh) * 2017-03-10 2017-07-07 东南大学 一种基于多域实体索引的实体链接方法
CN110413734A (zh) * 2019-07-25 2019-11-05 万达信息股份有限公司 一种医疗服务的智能搜索系统及方法
CN110781687A (zh) * 2019-11-06 2020-02-11 三角兽(北京)科技有限公司 相同意图语句的获取方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202382B (zh) * 2016-07-08 2019-06-14 南京柯基数据科技有限公司 链接实体方法和系统
CN107748744B (zh) * 2017-10-31 2021-01-26 广东小天才科技有限公司 一种勾勒框知识库的建立方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101630314A (zh) * 2008-07-16 2010-01-20 中国科学院自动化研究所 一种基于领域知识的语义查询扩展方法
CN105320715A (zh) * 2014-10-22 2016-02-10 武汉理工大学 基于本体的语义查询方法
CN106503148A (zh) * 2016-10-21 2017-03-15 东南大学 一种基于多知识库的表格实体链接方法
CN106934020A (zh) * 2017-03-10 2017-07-07 东南大学 一种基于多域实体索引的实体链接方法
CN110413734A (zh) * 2019-07-25 2019-11-05 万达信息股份有限公司 一种医疗服务的智能搜索系统及方法
CN110781687A (zh) * 2019-11-06 2020-02-11 三角兽(北京)科技有限公司 相同意图语句的获取方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
应用于网上图书领域的DeepWeb实体识别;李英华;《中国优秀硕士学位论文全文数据库信息科技辑(月刊)》;20101115(第11期);第I138-267页 *

Also Published As

Publication number Publication date
CN112115709A (zh) 2020-12-22

Similar Documents

Publication Publication Date Title
CN112115709B (zh) 实体识别方法、装置、存储介质和电子设备
CN110245160B (zh) 一种确定房屋装修方案的方法及系统
CN110263180B (zh) 意图知识图谱生成方法、意图识别方法及装置
CN103577423B (zh) 关键词分类方法及系统
CN109299383B (zh) 生成推荐词的方法、装置、电子设备及存储介质
CN102043812A (zh) 一种医疗信息的检索方法及系统
CN105138671A (zh) 基于人工智能的人机交互的交互引导方法和装置
US20130339369A1 (en) Search Method and Apparatus
GB2583679A (en) Searching multilingual documents based on document structure extraction
JP5847290B2 (ja) ドキュメント検索装置およびドキュメント検索方法
US10621252B2 (en) Method for searching in a database
CN107992563B (zh) 一种用户浏览内容的推荐方法及系统
CN111858922A (zh) 服务方信息查询方法、装置、电子设备以及存储介质
CN111401044A (zh) 一种标题生成方法、装置、终端设备及存储介质
CN108959387B (zh) 信息获取方法及装置
CN108733848B (zh) 一种搜索知识的方法及系统
CN112541051A (zh) 标准文本匹配方法、装置、存储介质和电子设备
CN113010669B (zh) 一种新闻分类方法和系统
CN106294784B (zh) 资源搜索方法及装置
CN114281942A (zh) 问答处理方法、相关设备及可读存储介质
CN111858830B (zh) 基于自然语言处理的卫生监督执法数据检索系统及其方法
CN111831885B (zh) 一种互联网信息检索系统与方法
JP2019086815A (ja) 発想支援装置及びプログラム
CN113704623A (zh) 一种数据推荐方法、装置、设备及存储介质
CN112035512A (zh) 知识库的检索方法、装置、电子设备及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant