CN112507127B - 一种基于先验知识图谱的智能抽取系统及方法 - Google Patents

一种基于先验知识图谱的智能抽取系统及方法 Download PDF

Info

Publication number
CN112507127B
CN112507127B CN202011417630.0A CN202011417630A CN112507127B CN 112507127 B CN112507127 B CN 112507127B CN 202011417630 A CN202011417630 A CN 202011417630A CN 112507127 B CN112507127 B CN 112507127B
Authority
CN
China
Prior art keywords
extraction
entity
data
map
intelligent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011417630.0A
Other languages
English (en)
Other versions
CN112507127A (zh
Inventor
洪万福
钱智毅
奚少星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Yuanting Information Technology Co ltd
Original Assignee
Xiamen Yuanting Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Yuanting Information Technology Co ltd filed Critical Xiamen Yuanting Information Technology Co ltd
Priority to CN202011417630.0A priority Critical patent/CN112507127B/zh
Publication of CN112507127A publication Critical patent/CN112507127A/zh
Application granted granted Critical
Publication of CN112507127B publication Critical patent/CN112507127B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及自然语言处理领域,提供了一种基于先验知识图谱的智能抽取系统及方法,所述系统包括客户端和服务器端,所述服务器端包括:智能抽取服务门户,用于接收客户端请求进行处理,并展示处理结果;访问图谱组件,用于访问知识图谱查询获取先验知识;数据处理组件,用于对先验知识和用户传入的数据进行处理形成由若干词向量组成的集合;实体抽取模块,用于对所述集合进行实体抽取;关系抽取模块,用于对所述集合进行实体间关系的抽取;事件抽取模块,用于对所述集合进行事件抽取;实体链接模块,用于对实体抽取模块抽取的实体进行候选实体消歧,并与图谱中的实体进行链接。本发明可无需人工标注,且跨领域适用性强。

Description

一种基于先验知识图谱的智能抽取系统及方法
技术领域
本发明涉及自然语言处理领域,尤其涉及一种基于先验知识图谱的智能抽取系统及方法。
背景技术
随着这几年自然语言处理和知识图谱的浪潮到来,这两方面的技术被应用到诸多行业和领域。信息抽取非常重要的一个板块和环节,许多工程中离不开对信息的抽取。对于信息抽取,当前不论是命名实体识别还是实体间关系,都在面临着两个重要的问题,第一,数据标签。传统的方式是进行人工打标,这种方式耗费大量的人工成本,时间成本;第二是抽取技术难度大,流程不熟悉。
为了解决这些问题,行业出现了一些不同领域的抽取技术,如电子病例命名实体识别等,在一定程度上使抽取的难度降低、抽取的准确率提升。当然,这些方案也存在一些缺点,例如跨领域的适用性较低,仍无法解决人工标注的难题,无法实现真正意义上的实现智能抽取。
发明内容
本发明的目的在于提供一种用于自然语言处理的智能抽取系统及方法,可无需人工标注,以节约人力成本和时间成本;且具备良好的跨领域适用性。
为实现上述目的,本发明提供了一种基于先验知识图谱的智能抽取系统,包括:包括客户端和服务器端,
所述服务器端包括智能抽取服务门户、数据处理组件、图谱访问组件、实体抽取模块、关系抽取模块、事件抽取模块和实体链接模块;
所述智能抽取服务门户用于集中接收客户端的请求,根据客户端请求的数据、抽取类型和图谱链接,使用数据处理组件或图谱访问组件进行处理并响应请求;所述抽取模型包括实体抽取、关系抽取和事件抽取;
所述图谱访问组件用于对用户提交的图谱地址进行访问,并将访问到的图谱信息作为先验知识传入数据处理组件;
所述数据处理组件用于对传入的先验知识和用户提交的数据进行处理,转换成由若干个词向量组成的集合;
所述实体抽取模块用于对所述集合进行实体抽取;
所述关系抽取模块用于对所述集合进行实体间关系的抽取;
所述事件抽取模块用于对所述集合进行事件抽取;
所述实体链接模块用于对实体抽取模块抽取的实体进行候选实体消歧,并与图谱中的实体进行链接。
进一步的,所述数据包括结构化数据,半结构化数据和文本数据,所述数据处理组件的处理事项包括结构化数据的D2R转换,半结构化数据包装,文本数据分词。
进一步的,所述图谱访问组件的访问事项包括查找实体、查找关系和比对实体。
进一步的,所述事件抽取模块抽取的事件信息包括事件类型、触发词、事件论元、论元角色。
进一步的,所述实体抽取模块,为基于命名实体识别技术的处理单元;内置BERT+CRF模型把数据处理组件输出的词向量提取为高级特征后再进行分类处理。
进一步的,所述关系抽取模块,采用Pipeline训练,对抽取的实体进行关系的分类;Pipeline训练的pipeline关系抽取模型为:触发词识别→事件类型识别→论元抽取。
进一步的,所述事件抽取模块,对基于图谱提取的事件类型、触发词、事件论元、论元角色,内置分类算法进行分类。
进一步的,包括多个服务器端,所述多个服务器端被部署执行如下功能:分布式集群管理、分布式模拟训练、任务调度、数据资源管理等。
本发明还提供了一种基于先验知识图谱的智能抽取方法,包含如下步骤:
步骤S1:用户使用客户端封装抽取所需相关资源,所述资源包括数据、抽取类型和图谱链接,发送请求到服务器端的智能抽取服务门户;
步骤S2:智能抽取服务门户接收对应的请求,将数据发送至数据处理组件处理,将图谱链接发送至图谱访问组件进行访问,并返回给客户端调度处理的流水号以及状态信息;
步骤S3:图谱访问组件将访问到的图谱信息作为先验知识传入数据处理组件;
步骤S4:数据处理组件将先验知识和/或数据转化成词向量形式,并根据抽取类型形成抽取任务将词向量集合发送至对应的抽取模块;
步骤S5:实体抽取任务在实体抽取模块完成;关系抽取任务,先发送至实体抽取模块进行实体抽取,在实体抽取完成后,再发送至关系抽取模块进行关系抽取;事件抽取任务在事件抽取模块抽取;
步骤S6:实体抽取后完成,根据用户需求是否进入图谱链接实体,进行实体比对消歧,由实体链接模块返回抽取结果至智能抽取服务门户;关系抽取和事件抽取完成后,直接将抽取结果返回至智能抽取服务门户;
步骤S7:抽取完成后,抽取结果传送至智能抽取服务门户,以便于用户查询及下载。
进一步的,所述智能抽取服务门户支持客户端使用REST和/或RPC协议进行访问,支持同步处理方式和异步处理方式。
进一步的,所述步骤S4具体包括:数据处理组件接收图谱访问组件的先验知识和接收智能抽取服务门户发送的待抽取数据和抽取类型,对于先验知识调用词向量函数把先验知识分别转化为词向量形式;对于待抽取数据分类,调用分句、分词、过滤停用词等预处理函数处理数据,后调用词向量函数将待抽取数据转化为词向量形式;根据抽取类型形成抽取任务将词向量集合发送至对应的抽取模块。
本发明和现有技术相比,其显著特点为:
(1)无需人工标注,先验图谱,节约人力成本和时间成本;
(2)跨领域适用性强,能对应不同领域的图谱匹配;
(3)任务集成,同一数据不同抽取目标可一键完成;
(4)使用简单,无需用户搭建模型,可直接投入生产使用。
附图说明
图1是本发明的基于先验知识图谱的智能抽取系统的结构框图;
图2是本发明的基于先验知识图谱的智能抽取方法的流程框图。
图3为本发明的基于先验知识图谱的智能抽取方法的局部流程框图。
具体实施方式
为进一步说明各实施例,本发明提供有附图。这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。图中的组件并未按比例绘制,而类似的组件符号通常用来表示类似的组件。
现结合附图和具体实施方式对本发明进一步说明。
在进行实施例描述前,先对其中采用的概念或英文缩写词进行说明。
知识图谱(Knowledge Graph),又称科学知识图谱,是图书情报学领域的概念,用于绘制、分析和显示学科或学术研究主体之间的相互联系,是揭示显示科学知识发展进程与结构关系的可视化工具。在多数情况下,知识图谱采用图结构进行可视化表示,使用结点代表作者、学术机构、科学文献或关键词,使用连线代表结点间关系。
先验知识图谱:先验既在事实发生之前就已经得知的。知识图谱以结构化的形式描述客观世界中的概念、实体及其之间的关系。
实体:在自然语言处理领域,是指文本中具有特定意义的名词,主要包括人名、地名、机构名、专有名词等。
关系:在自然语言处理领域,是指实体间的相互联系,如:同学、上级、包含、敌对等。
事件:在自然语言处理领域,是指描述某件事情或事实的信息,如:何时何地何人做了什么。
HMM:隐马尔可夫模型(Hidden Markov Model),一种统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。
CRF:条件随机场(Conditional Random Field),是给定一组输入序列的条件下,另一组输出序列的条件概率分布模型。
BERT:来自Transformer的双向编码器表示(Bidirectional EncoderRepresentations from Transformers),一种语言表示模型,BERT旨在通过联合调节所有层中的左右上下文来预训练深度双向表示。因此,只需要一个额外的输出层,就可以对预训练的BERT表示进行微调,从而为广泛的任务(比如回答问题和语言推断任务)创建最先进的模型,而无需对特定于任务进行大量模型结构的修改。
NER:命名实体识别(Named Entity Recognition),是自然语言处理(NaturalLanguage Processing,NLP)中的一项基础工具:在一段文本中识别出各类命名实体;需要识别的命名实体通常包括人名,地名,组织机构名,药物,时间等。
pipeline,管道,指在.NETFramework外接程序编程模型中,表示在外接程序与其宿主之间交换数据的管线段的线性通信模型。
REST:表述性状态传递(Representational State Transfer),是一种软件架构风格,针对网络应用的设计和开发方式,可以降低开发的复杂性,提高系统的可伸缩性。它是Roy Fielding博士在2000年提出来的一种软件架构风格。
RPC:远程过程调用协议(Remote Procedure Call Protocol),是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。该协议允许运行于一台计算机的程序调用另一台计算机的子程序,而程序员无需额外地为这个交互作用编程。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨越了传输层和应用层。RPC使得开发包括网络分布式多程序在内的应用程序更加容易。
RDF:资源描述框架(Resource Description Framework),一种用于描述Web资源的标记语言。
D2R:一种将数据库转换为RDF(资源描述框架)的工具,用于将关系型数据库发布为关联数据。
如图1所示,本发明公开了一种基于先验知识图谱的智能抽取系统,包括智能抽取客户端和智能抽取服务器端;所述智能抽取服务器端进一步包括:智能抽取服务门户、数据处理组件、图谱访问及注入组件、实体抽取模块、关系抽取模块、事件抽取模块和实体链接模块。
在本实施例中智能抽取客户端可以是Web浏览器,智能抽取服务器端可以是一个Web服务器,智能抽取客户端可以通过REST或RPC方式向智能抽取服务器端的智能抽取服务门户发送请求。
所述智能抽取服务门户用于集中接收智能抽取客户端的请求,根据智能抽取客户端请求的类型及数据形式,使用相应的服务组件进行处理并响应请求。
智能抽取服务门户支持同步处理和异步处理两种方式,对于智能抽取服务器端需要长时间处理的请求,智能抽取服务门户会自动转为异步处理,用户可以通过状态更新或其他操作查询处理结果。
所述数据处理组件用于对用户提交的数据进行处理,所述数据包括结构化数据,半结构化数据和文本数据等;数据处理事项包括结构化数据的D2R转换,半结构化数据封装,文本数据分词等。其中,所述结构化数据是指表格文档、数据库数据等,已建立完整的数据结构;文本数据为非结构化数据,由若干个单词组成,为便于抽取,本文将所有数据统一处理为词向量,其中文本数据进行分词,并根据预训练词向量进行迁移学习,将文本数据转换成有若干个词向量组成的集合;半结构化数据是指介于结构化数据和非结构化数据之间的数据,可以通过灵活的键值调整获取相应信息,如JSON(JavaScript Object Notation,或称JS对象简谱),需要通过包装器对半结构化数据进行封装,从而将半结构化数据转化成一种结构化数据。
所述图谱访问组件用于对用户提交的图谱链接地址进行访问,图谱访问事项包括查找实体、查找关系和比对实体,用于解决无标注问题,以及实体、关系的链接。
所述实体抽取模块用于对用户提交的数据进行实体抽取;在本实施例应用中,实体抽取模块采用命名实体识别技术,内置BERT+CRF等模型把数据处理组件输出的词向量提取为高级特征后再进行分类处理。
所述关系抽取模块用于对用户提交的数据进行实体间关系的抽取;通常采用Pipeline训练。常用的pipeline关系抽取模型为:触发词识别→事件类型识别→论元抽取。
所述事件抽取模块用于对用户提交的数据进行事件抽取,对基于图谱提取的事件类型、触发词、事件论元、论元角色,内置分类算法进行分类。
所述实体链接模块用于对实体抽取模块抽取的实体进行候选实体消歧,并与图谱中的实体进行链接。
如图2和图3所示,本实施例采取的智能抽取方法包括如下步骤:
步骤S1:用户使用智能抽取客户端封装抽取所需相关资源,发送请求到智能抽取服务器端的智能抽取服务门户。所述资源包括:数据(可以是结构化数据或半结构化数据或文本)、抽取类型、图谱链接(URL)。抽取类型包括实体抽取、关系抽取和事件抽取。
步骤S2:智能抽取服务门户接收对应的请求,将数据及抽取类型发送至数据处理组件处理,将图谱链接发送至图谱访问组件进行访问,并返回给智能抽取客户端调度处理的流水号以及状态信息(即说明是否智能抽取启动成功)。
步骤S3:图谱访问组件将访问到的图谱信息作为先验知识传入数据处理组件。
步骤S4:数据处理组件接收图谱访问组件的先验知识和接收智能抽取服务门户发送的待抽取数据和抽取类型,对于先验知识调用词向量函数把先验知识分别转化为词向量形式;对于待抽取数据分类,调用分句、分词、过滤停用词等预处理函数处理数据,后调用词向量函数将待抽取数据转化为词向量形式。根据抽取类型形成抽取任务将词向量集合发送至对应的抽取模块。
步骤S5:实体抽取任务在实体抽取模块完成;关系抽取任务,先发送至实体抽取模块进行实体抽取,在实体抽取完成后,再发送至关系抽取进行关系抽取;事件抽取任务在事件抽取模块抽取。如图3所示,types==0表示实体抽取,types==1表示关系抽取;types==2表示事件抽取。
步骤S6:实体抽取后完成,根据用户需求是否进入图谱链接实体,进行实体比对消歧,由实体链接模块返回结果至智能抽取服务门户。关系抽取和事件抽取完成后,直接将结果返回至智能抽取服务门户。
步骤S7:智能抽取服务门户将抽取结果返回至智能抽取客户端,用户可在智能服务客户端查询及下载结果,以及中间过程信息;用户更新状态,如果还未完成,则返回训练。
传统的智能抽取缺乏图谱的有力支持,无法获得先验知识以及对抽取结果的比对,且抽取任务大多不完善,没有集成实体、关系、事件三大类。本发明的智能抽取系统,在注入了大量图谱包含的先验知识后,更适应于多领域任务,不用重复构建项目,且进行实体比对,抽取的精度有较好的提升。
尽管结合优选实施方案具体展示和介绍了本发明,但所属领域的技术人员应该明白,在不脱离所附权利要求书所限定的本发明的精神和范围内,在形式上和细节上可以对本发明做出各种变化,均为本发明的保护范围。

Claims (5)

1.一种基于先验知识图谱的智能抽取系统,包括客户端和服务器端,其特征在于:所述服务器端包括智能抽取服务门户、数据处理组件、图谱访问组件、实体抽取模块、关系抽取模块、事件抽取模块和实体链接模块;
所述智能抽取服务门户用于集中接收客户端的请求,根据客户端请求的数据、抽取类型和图谱链接,使用数据处理组件或图谱访问组件进行处理并响应请求;所述抽取类型包括实体抽取、关系抽取和事件抽取;
所述图谱访问组件用于对用户提交的图谱地址进行访问,并将访问到的图谱信息作为先验知识传入数据处理组件;
所述数据处理组件用于对传入的先验知识和用户提交的数据进行处理,转换成由若干个词向量组成的集合;
所述实体抽取模块用于对所述集合进行实体抽取;
所述关系抽取模块用于对所述集合进行实体间关系的抽取;
所述事件抽取模块用于对所述集合进行事件抽取;
所述实体链接模块用于对实体抽取模块抽取的实体进行候选实体消歧,并与图谱中的实体进行链接;
所述数据包括结构化数据,半结构化数据和文本数据,所述数据处理组件的处理事项包括结构化数据的D2R转换,半结构化数据包装,文本数据分词;
所述图谱访问组件的访问事项包括查找实体、查找关系和比对实体;
所述实体抽取模块,为基于命名实体识别技术的处理单元;内置BERT+CRF模型把数据处理组件输出的词向量提取为高级特征后再进行分类处理;
所述关系抽取模块,采用Pipeline训练,对抽取的实体进行关系的分类;Pipeline训练的pipeline关系抽取模型为:触发词识别,事件类型识别,然后论元抽取;
所述事件抽取模块,对基于图谱提取的事件类型、触发词、事件论元、论元角色,内置分类算法进行分类。
2.如权利要求1所述的基于先验知识图谱的智能抽取系统,其特征在于:包括多个服务器端,所述多个服务器端被部署执行如下功能:分布式集群管理、分布式模拟训练、任务调度、数据资源管理。
3.一种基于先验知识图谱的智能抽取方法,其特征在于,包含如下步骤:
步骤S1:用户使用客户端封装抽取所需相关资源,所述资源包括数据、抽取类型和图谱链接,发送请求到服务器端的智能抽取服务门户,所述数据包括结构化数据,半结构化数据和文本数据,所述数据处理组件的处理事项包括结构化数据的D2R转换,半结构化数据包装,文本数据分词;
步骤S2:智能抽取服务门户接收对应的请求,将数据发送至数据处理组件处理,将图谱链接发送至图谱访问组件进行访问,并返回给客户端调度处理的流水号以及状态信息;
步骤S3:图谱访问组件将访问到的图谱信息作为先验知识传入数据处理组件,所述图谱访问组件的访问事项包括查找实体、查找关系和比对实体;
步骤S4:数据处理组件将先验知识和/或数据转化成词向量形式,并根据抽取类型形成抽取任务将词向量集合发送至对应的抽取模块;
步骤S5:实体抽取任务在实体抽取模块完成,所述实体抽取模块,为基于命名实体识别技术的处理单元;内置BERT+CRF模型把数据处理组件输出的词向量提取为高级特征后再进行分类处理;关系抽取任务,先发送至实体抽取模块进行实体抽取,在实体抽取完成后,再发送至关系抽取模块进行关系抽取,所述关系抽取模块,采用Pipeline训练,对抽取的实体进行关系的分类;Pipeline训练的pipeline关系抽取模型为:触发词识别,事件类型识别,然后论元抽取;事件抽取任务在事件抽取模块抽取,所述事件抽取模块,对基于图谱提取的事件类型、触发词、事件论元、论元角色,内置分类算法进行分类;
步骤S6:实体抽取后完成,根据用户需求是否进入图谱链接实体,进行实体比对消歧,由实体链接模块返回抽取结果至智能抽取服务门户;关系抽取和事件抽取完成后,直接将抽取结果返回至智能抽取服务门户;
步骤S7:抽取完成后,抽取结果传送至智能抽取服务门户,以便于用户查询及下载。
4.如权利要求3所述的基于先验知识图谱的智能抽取方法,其特征在于:所述智能抽取服务门户支持客户端使用REST和/或RPC协议进行访问,支持同步处理方式和异步处理方式。
5.如权利要求3所述的基于先验知识图谱的智能抽取方法,其特征在于:所述步骤S4具体包括:数据处理组件接收图谱访问组件的先验知识和接收智能抽取服务门户发送的待抽取数据和抽取类型,对于先验知识调用词向量函数把先验知识分别转化为词向量形式;对于待抽取数据分类,调用预处理函数处理数据,所述预处理函数包括分句、分词、过滤停用词,后调用词向量函数将待抽取数据转化为词向量形式;根据抽取类型形成抽取任务将词向量集合发送至对应的抽取模块。
CN202011417630.0A 2020-12-07 2020-12-07 一种基于先验知识图谱的智能抽取系统及方法 Active CN112507127B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011417630.0A CN112507127B (zh) 2020-12-07 2020-12-07 一种基于先验知识图谱的智能抽取系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011417630.0A CN112507127B (zh) 2020-12-07 2020-12-07 一种基于先验知识图谱的智能抽取系统及方法

Publications (2)

Publication Number Publication Date
CN112507127A CN112507127A (zh) 2021-03-16
CN112507127B true CN112507127B (zh) 2022-12-06

Family

ID=74970852

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011417630.0A Active CN112507127B (zh) 2020-12-07 2020-12-07 一种基于先验知识图谱的智能抽取系统及方法

Country Status (1)

Country Link
CN (1) CN112507127B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377715A (zh) * 2019-07-23 2019-10-25 天津汇智星源信息技术有限公司 基于法律知识图谱的推理式精准智能问答方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020179A (zh) * 2012-11-28 2013-04-03 北京小米科技有限责任公司 一种网页内容的提取方法、装置和设备
EP3136262A1 (en) * 2015-07-30 2017-03-01 Tata Consultancy Services Limited Method and system for entity relationship model generation
CN105956053B (zh) * 2016-04-27 2019-07-16 海信集团有限公司 一种基于网络信息的搜索方法及装置
US11341418B2 (en) * 2018-11-13 2022-05-24 Salveretec PRC Ascriptive and descriptive entities for process and translation: a limited iterative ontological notation
CN110147401A (zh) * 2019-05-22 2019-08-20 苏州大学 融合先验知识和上下文相关度的知识库抽取方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377715A (zh) * 2019-07-23 2019-10-25 天津汇智星源信息技术有限公司 基于法律知识图谱的推理式精准智能问答方法

Also Published As

Publication number Publication date
CN112507127A (zh) 2021-03-16

Similar Documents

Publication Publication Date Title
CN107846350B (zh) 一种语境感知网络聊天的方法、计算机可读介质和系统
CN112507099B (zh) 对话理解模型的训练方法、装置、设备和存储介质
CN111026842B (zh) 自然语言处理方法、自然语言处理装置及智能问答系统
CN107491534A (zh) 信息处理方法和装置
CN110111780B (zh) 数据处理方法和服务器
Rubio-Drosdov et al. Seamless human-device interaction in the internet of things
CN111522927B (zh) 基于知识图谱的实体查询方法和装置
WO2023065211A1 (zh) 一种信息获取方法以及装置
CN111368548A (zh) 语义识别方法及装置、电子设备和计算机可读存储介质
EP1909196A1 (en) Discovery of services matching a service request
CN104462064A (zh) 一种移动终端信息通讯提示输入内容的方法和系统
CN113704388A (zh) 多任务预训练模型的训练方法、装置、电子设备和介质
CN114330474B (zh) 一种数据处理方法、装置、计算机设备以及存储介质
CN112650842A (zh) 基于人机交互的客服机器人意图识别方法及相关设备
CN113962224A (zh) 命名实体识别方法及其装置、设备、介质、产品
CN115114419A (zh) 问答处理方法、装置、电子设备和计算机可读介质
CN111008213A (zh) 用于生成语言转换模型的方法和装置
CN110059172A (zh) 基于自然语言理解的推荐答案的方法和装置
CN112507127B (zh) 一种基于先验知识图谱的智能抽取系统及方法
US20230297603A1 (en) Cross-lingual meta-transfer learning adaptation to natural language understanding
CN115129885A (zh) 实体链指方法、装置、设备及存储介质
CN114064685A (zh) 数据标准化访问方法及其装置、设备、介质、产品
CN113778846A (zh) 用于生成测试数据的方法和装置
CN116595154B (zh) 任务处理方法以及自动问答方法
CN106933796B (zh) 基于语义理解的物联网终端互操作方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant