CN112131881A - 信息抽取方法及装置、电子设备、存储介质 - Google Patents

信息抽取方法及装置、电子设备、存储介质 Download PDF

Info

Publication number
CN112131881A
CN112131881A CN202011038821.6A CN202011038821A CN112131881A CN 112131881 A CN112131881 A CN 112131881A CN 202011038821 A CN202011038821 A CN 202011038821A CN 112131881 A CN112131881 A CN 112131881A
Authority
CN
China
Prior art keywords
entity
text
head
relationship
target text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011038821.6A
Other languages
English (en)
Other versions
CN112131881B (zh
Inventor
张倩汶
闫昭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202011038821.6A priority Critical patent/CN112131881B/zh
Publication of CN112131881A publication Critical patent/CN112131881A/zh
Application granted granted Critical
Publication of CN112131881B publication Critical patent/CN112131881B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请的实施例揭示了一种信息抽取方法及装置,该方法包括:对目标文本进行属性分类处理,得到与所述目标文本相匹配的关系属性,所述关系属性用于表征所述目标文本中包含的实体之间的实体关系;从所述目标文本中抽取与所述实体关系相对应的头实体;根据所述头实体和所述实体关系构建实体关系问题;在所述目标文本中进行所述实体关系问题所对应答案的抽取,得到与所述实体关系问题中的头实体以及实体关系相对应的尾实体,并基于所述头实体、所述实体关系以及所述尾实体构成所述目标文本含有的结构化信息。本申请实施例的技术方案对于句法结构复杂的文本具有很好的信息抽取效果,并且可以部署在云服务器中。

Description

信息抽取方法及装置、电子设备、存储介质
技术领域
本申请涉及人工智能技术领域,具体涉及一种信息抽取方法及装置、电子设备和计算机可读存储介质。
背景技术
随着人工智能技术研究和进步,人工智能技术已在多个领域展开研究和应用,例如在常见的自动驾驶、机器人、智能客服等领域,人工智能技术发挥着越来越重要的价值。人工智能技术也可以与云技术相结合,例如将基于人工智能技术开发的应用软件或应用接口存储于云端,以对外提供人工智能处理的业务访问系统,由此能够保证应用数据具有较高的隐私性和安全性。
在信息抽取领域,利用人工智能技术可以很方便地将嵌入在文本中的非结构化信息自动提取为形如<头实体,实体关系,尾实体>的结构化信息。但是,目前的结构化信息抽取方案对于句法结构单一的文本具有较好的信息抽取效果,但是无法处理复杂场景下的结构化信息抽取,例如在文本中含有的主语具有相应的多个谓语及宾语、文本中含有的宾语具有相应的多个主语及宾语等情况下,采用目前的结构化信息抽取方案无法得到准确的结构化信息。
发明内容
为解决上述技术问题,本申请的实施例提供了一种信息抽取方法及装置、电子设备和计算机可读存储介质。
其中,本申请的实施例所提供的技术方案为:
一种信息抽取方法,包括:对目标文本进行属性分类处理,得到与所述目标文本相匹配的关系属性,所述关系属性用于表征所述目标文本中包含的实体之间的实体关系;从所述目标文本中抽取与所述实体关系相对应的头实体;根据所述头实体和所述实体关系构建实体关系问题;在所述目标文本中进行所述实体关系问题所对应答案的抽取,得到与所述实体关系问题中的头实体以及实体关系相对应的尾实体,并基于所述头实体、所述实体关系以及所述尾实体构成所述目标文本含有的结构化信息
一种信息抽取装置,包括:实体关系获取模块,配置为对目标文本进行属性分类处理,得到与所述目标文本相匹配的关系属性,所述关系属性用于表征所述目标文本中包含的实体之间的实体关系;头实体抽取模块,配置为从所述目标文本中抽取与所述实体关系相对应的头实体;实体关系问题构建模块,配置为根据所述头实体和所述实体关系构建实体关系问题;尾实体抽取模块,配置为在所述目标文本中进行所述实体关系问题所对应答案的抽取,得到与所述实体关系问题中的头实体以及实体关系相对应的尾实体,并基于所述头实体、所述实体关系以及所述尾实体构成所述目标文本含有的结构化信息。
一种电子设备,包括处理器及存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现如上所述的信息抽取方法。
一种计算机可读存储介质,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行如上所述的信息抽取方法。
本申请的实施例所提供的技术方案能够保证抽取得到的尾实体的准确性,该技术方案也可以快速且准确地得到目标文本中含有的结构化信息,即使在复杂场景下也具有很好的信息抽取效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请的范围。
附图说明
此处的附图被纳入说明书中并构成本说明书的一部分,它们示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。可以理解地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术者来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他符合本发明原理的附图。在附图中:
图1是本申请涉及的一种实施环境的示意图;
图2是本申请实施例示出的一种信息抽取方法的流程图;
图3是基于图2所示实施例提出的另一种信息抽取方法的流程图;
图4是本申请实施例示出的一种文本识别流程的示意图;
图5是另一本申请实施例示出的一种文本识别流程的示意图;
图6是本申请实施例示出的一种人工智能模型的结构示意图;
图7是基于图2所示实施例提出的另一种信息抽取方法的流程图;
图8是本申请提出的一种示例性应用场景的流程示意图;
图9是本申请实施例示出的一种信息抽取装置的框图;
图10是本申请实施例示出的一种电子设备的计算机系统的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例的对应图示表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。它们仅是与如所附权利要求书、本申请的一些实施例相一致的装置和方法的例子。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
还需要说明的是:在本申请中提及的“多个”是指两个或者两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或 B可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
例如,自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括非结构化文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。
本申请提出的信息抽取方法及装置、设备以及计算机可读存续介质涉及人工智能领域中的非结构化文本处理领域,以下将通过具体的实施例对这些方法、装置、设备和计算机可读存储介质进行详细说明。
此外,作为一种示例性的应用方式,本申请所提出的信息抽取方法及装置、设备以及计算机可读存续介质可以具体部署在云服务器上,以使云服务器能够对外提供结构化信息抽取的业务功能。例如,用户通过调用云服务所提供的应用接口,即可方便地将嵌入在文本中的非结构化信息自动提取为结构化信息,具体执行结构化信息抽取的代码数据对用户来说是不可见的,由此能够保证相关代码数据的隐私性和安全性。
请参阅图1,图1是本申请涉及的一种实施环境的示意图。
该实施环境具体为一种结构化信息的抽取系统,如图1所示,该系统包括信息抽取终端10和信息抽取服务器20,信息抽取终端10和信息抽取服务器20之间通过有线或者无线的网络进行通信。
其中,信息抽取终端10用于向信息抽取服务器20发送信息抽取请求,以请求获取目标文本中含有的形如<头实体,实体关系,尾实体>的结构化信息。
信息抽取服务器20接收到信息抽取终端发送的信息抽取请求后,通过对目标文本依次进行实体关系、头实体及尾实体的抽取,并将抽取得到的头实体、实体关系及尾实体对应组合为形如<头实体,实体关系,尾实体> 的信息格式,以得到目标文本含有的结构化信息,并将所得到的结构化信息返回至信息抽取终端10。
需要说明的是,本实施环境中的信息抽取终端10具体可以是智能手机、平板、笔记本电脑、计算机等电子设备,信息抽取终端10的数量可以是一个或者多个,本处不进行限制。本实施环境中的信息抽取服务器20具体可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content DeliveryNetwork,内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器,本处也不对此进行限制。
还需要说明的是,本申请所涉及的“头实体”和“尾实体”仅用于表示目标文本含有的不同实体,并不表示对实体自身在目标文本中所处的位置或其它方面进行了限制,例如,本申请所涉及的“头实体”和“尾实体”可以使用“第一实体”和“第二实体”相应代替。
现有技术中常用的结构化信息抽取方案为:先抽取出文本中的所有实体,然后遍历所有实体对<实体1,实体2>,并预测所有实体对中是否存在实体关系以及存在哪种实体关系,最后将存在实体关系的实体对所含有的实体1 和实体2分别作为头实体和尾实体,并基于二者实体之间的实体关系得到结构化信息。
在此信息抽取方案中,若头实体或者尾实体中的任意一个实体抽取错误,就会导致后续预测到错误的实体关系,从而导致抽取的结构化信息的准确性不高。
并且,在针对语法结构较为复杂的目标文本进行结构化信息抽取的场景下,例如目标文本中含有的主语具有相应的多个谓语及宾语,或者目标文本中含有的宾语具有相应的多个主语及宾语,采用此种信息抽取方案无法得到准确的结构化信息,容易出现抽取得到的结构化信息出错、或者抽取得到的结构化信息并不是目标文本中含有的全部结构化信息等问题。
为解决此问题,本实施例提出了如图2所示的信息抽取方法。该信息抽取方法可以应用于图1所示的实施环境,例如由图1所示实施例环境中的信息抽取服务器20具体执行。在其它的应用场景中,该信息抽取方法也可以由其它设备具体执行,本处不对此进行限制。
如图2所示,本实施例所提出的信息抽取方法可以包括步骤S110至步骤 S170,详细介绍如下:
步骤S110,对目标文本进行属性分类处理,得到与目标文本相匹配的关系属性,关系属性用于表征目标文本中含有的实体之间的实体关系。
首先需要理解的是,目标文本是指待抽取结构化信息的任意文本,例如目标文本可以是书籍、机关文件、百科介绍、新闻报道等任意形式的文本,本实施例不对此进行限制。
本实施例对目标文本进行属性分类处理是指,根据目标文本的文本内容获取与目标文本相匹配的关系属性的过程,与目标文本相匹配的关系属性是指目标文本中包含的两个实体之间的关联关系,需要根据目标文本的文本内容进行确定,因此本实施也将与目标文本相匹配的关系属性作为目标文本中含有的实体之间的实体关系。
举例来说,根据示例性的目标文本“《邪少兵王》是冰火未央写的网络小说”可知,冰火未央是网络小说《邪少兵王》的作者,可以确定目标文本中含有的实体“冰火未央”与“邪少兵王”之间存在的关系属性为“作者”,因此将“作者”作为目标文本中含有的实体关系。
通常而言,针对具有不同的语法复杂程度的目标文本,基于上述过程均可以得到目标文本中含有的一个或者多个实体关系,所得到的实体关系的数量由目标文本的具体内容决定。例如,在非结构化语句“王**,女,1991年出生,中国射击元老王##的女儿,母亲是曾培养过多名世界冠军的功勋教练张&&”中,含有“性别”、“出生日期”、“父亲”、“母亲”、“职业”等实体关系。
在一些实施例中,可以将目标文本输入属性分类模型中,并获取属性分类模型针对目标文本输出的一个或多个关系属性,从而可以快速地得到目标文本中含有的各个实体关系。
需要说明的是,属性分类模型用于从关系属性集合中预测与目标文本的文本内容相匹配的关系属性,其中关系属性集合中含有预先收集的多种关系属性,属性分类模型预测与目标文本的文本内容相匹配的关系属性的过程,实际上是执行对目标文本的文本内容进行关系属性分类的过程。
属性分类模型可以是预先训练得到的人工智能模型,例如可以是BERT(Bidirectional Encoder Representations from Transformers,基于Transformer的双向编码器表示,Transformer是由谷歌公司提出的一种自然语言处理模型) 模型,或者可以采用其它的分类模型,本处不对此进行限制。
由此可知,本实施例可以方便且快速地获得与目标文本的文本内容相匹配的所有关系属性,从而可以方便且快速地得到目标文本中含有的实体之间的所有实体关系。
步骤S130,从目标文本中抽取与实体关系相对应的头实体。
在本实施例中,若将实体关系作为“主谓宾”语法结构中的谓语,与实体关系相对应的头实体则作为与谓语相对应的主语,与实体关系相对应的尾实体则作为与谓语相对应的宾语。因此,本实施例从目标文本中抽取与实体关系相对应的头实体是指抽取目标文本中含有的主语的过程。
在实体关系所对应头实体的抽取过程中,抽取得到的头实体与作为头实体抽取依据的实体关系之间应当具有语法上的主谓关系,因此在确定目标文本中含有的实体关系之后,通过在目标文本中选取能够与实体关系形成语法上的主谓关系的目标实体,即可将得到的目标实体确定为与实体关系相对应的头实体。
例如,从目标文本“《邪少兵王》是冰火未央写的网络小说”中可以确定得到实体关系“作者”,将此实体关系作为谓语,并在目标文本中抽取此实体关系对应的主语,则能够得到与此实体关系相对应的头实体“邪少兵王”。
在一些实施例中,目标文本中可能含有对应于同一实体关系的多个头实体,例如在目标文本“《步步惊心》改编自著名作家桐华的同名清穿小说《甄嬛传》改编自流潋紫所著的同名小说电视剧《何以笙箫默》改编自顾漫同名小说”中,能够与实体关系“作者”形成语法上的主谓关系的目标实体包括“步步惊心”、“甄嬛传”以及“何以笙箫默”,因此可以得到目标文本中含有的对应于实体关系“作者”的多个头实体。
在其它的一些实施例中,目标文本中的同一头实体可能对应于多个实体关系,例如在非结构化语句“王**,女,1991年出生,中国射击元老王##的女儿,母亲是曾培养过多名世界冠军的功勋教练张&&”中,可以得到与实体关系“性别”、“出生日期”、“父亲”、“母亲”相对应的头实体均为“王**”。
并且当存在与目标文本相匹配的多个实体关系时,基于本实施例可以分别获得与各个实体关系相对应的头实体。例如在在非结构化语句“王**,女, 1991年出生,中国射击元老王##的女儿,母亲是曾培养过多名世界冠军的功勋教练张&&”中,还可以得到与实体关系“职业”相对应的头实体为“张 &&”。
由此可知,即使在针对语法结构复杂的目标文本进行结构化信息抽取的场景中,基于本实施例提供的方法可以准确地得到目标文本中含有的形如< 头实体,实体关系>的全部信息。基于这些信息,则可以从目标文本中准确地抽取与头实体和实体关系相对应的尾实体,从而得到准确的且全面的结构化信息,在复杂场景下也能够具有很好的信息抽取效果。
并且,本实施例通过先获取与结构化文本相匹配的所有实体关系,再从目标文本中抽取与各个实体关系相对应的所有头实体,然后基于头实体和实体关系抽取相应的尾实体,也即是在已经存在的实体关系的基础上进行与实体关系相对应的头实体和尾实体的抽取,可以理解为是缩小了结构化信息抽取的范围,在很大程度上提升了针对目标文本进行结构化信息抽取的抽取效率。
步骤S150,根据头实体和实体关系构建实体关系问题。
在本实施例中,根据头实体和实体关系构建实体关系问题是指将头实体和相应实体关系组成实体关系问题,以基于组合得到的实体关系问题,在目标文本中抽取与实体关系问题相对应的答案,所得到的答案即为目标文本中含有的与实体关系问题相对应的尾实体。
头实体与实体关系之间的组合方式依赖于问题模板,示例性的,可以预先收集每一种实体关系对应的问题模板,所得到的问题模板可以是“[头实体] 的性别是什么”、“[头实体]的出生日期是什么时候”等。而在其它的实施例中,问题模板也可以是“[头实体]的[实体关系]是什么”,或者“[头实体],[实体关系]”,本实施例不对此进行限制。
本实施例基于问题模板可以将头实体以及头实体对应的实体关系组合为实体关系问题,例如在前述示例中,所得到的实体关系问题可以是“王**的性别是什么”、“王**的出生日期是什么时候”等。
在复杂的信息抽取场景下,基于步骤S110和步骤S130可以得到多个实体关系,以及与各个实体相对应的头实体,因此在进行实体关系问题构建时,分别基于各个实体关系以及与各个实体关系对应的头实体构建实体关系问题,从而得到多个实体关系问题。在所得到的实体关系问题中,所含有的实体关系和/或头实体应当是不同,保证了后续基于实体关系问题进行相应尾实体抽取的过程不会执行重复的操作,在一定程度上能够提升信息抽取的效率。
步骤S170,在目标文本中进行实体关系问题所对应答案的抽取,得到与实体关系问题中的头实体以及实体关系相对应的尾实体,并基于头实体、实体关系以及尾实体构成目标文本含有的结构化信息。
如前所述的,若将实体关系作为“主谓宾”语法结构中的谓语,与实体关系相对应的头实体则作为与谓语相对应的主语,与实体关系相对应的尾实体则作为与谓语相对应的宾语。因此,本实施例在目标文本中进行实体关系问题所对应答案的抽取,实际上是指抽取目标文本中所含有的宾语的过程。
在实体关系问题所对应尾实体的抽取过程中,实体关系问题中含有的头实体和实体关系、与抽取得到的尾实体之间应当具有语法上的主谓宾关系,因此可以通过在目标文本中选取能够与实体关系问题中含有的头实体和实体关系形成语法上的主谓宾关系的目标实体,即可将目标实体确定为实体关系问题对应的答案,得到与实体关系问题中的头实体以及实体关系相对应的尾实体。
而基于相应获取的头实体、实体关系及尾实体,则可以构成目标文本含有的形如<头实体,实体关系,尾实体>的结构化信息。并且,所得到的结构化信息可以用于表示头实体、实体关系及尾实体之间具有语法上的主谓宾关系。
例如,从目标文本“《邪少兵王》是冰火未央写的网络小说”中可以确定得到实体关系问题为“邪少兵王,作者”,基于此实体关系问题在目标文本中抽取相应的尾实体为“冰火未央”,进而得到结构化信息为:<邪少兵王,作者,冰火未央>。
而在目标文本中含有对应于同一实体关系的多个头实体的场景下,例如在目标文本“《步步惊心》改编自著名作家桐华的同名清穿小说《甄嬛传》改编自流潋紫所著的同名小说电视剧《何以笙箫默》改编自顾漫同名小说”中,所得到的结构化信息可以包括:<步步惊心,作者,桐华>,<甄嬛传,作者,流潋紫>,<何以笙箫默,作者,顾漫>。
在目标文本中的同一头实体对应于多个实体关系的场景下,例如在非结构化语句“王**,女,1991年出生,中国射击元老王##的女儿,母亲是曾培养过多名世界冠军的功勋教练张&&”中,所得到的结构化信息可以包括:< 王**,性别,女>,<王**,出生日期,1991年>,<王**,父亲,王##>,< 王**,母亲,张&&>,<张&&,职业,教练>。
需要说明的是,本实施例中提供的目标文本,以及在目标文本中进行实体关系、头实体、尾实体抽取的结果,以及所得到的目标文本中含有的结构化信息,均是为了便于理解本实施例的技术构思而给出的示例,在实际的结构化信息抽取场景下,采用本实施例的方法对这些目标文本提取得到的结构化信息可能与上述示例不完全相同。
并且由上可知,即使在针对语法结构复杂的目标文本进行结构化信息抽取的场景中,基于本实施例提供的方法可以准确地得到目标文本中含有的形如<头实体,实体关系,尾实体>的全部结构化信息,因此本实施例提供的方法在复杂文本场景下也能够具有很好的信息抽取效果。
图3是基于图2所示实施例提出的另一种信息抽取方法的流程图。该方法可以由图1所示实施例环境中的信息抽取服务器20具体执行,或者由其它设备具体执行,本处也不对此进行限制。
在图3所示的信息抽取方法中,从目标文本中抽取与实体关系相对应的头实体的过程包括步骤S231至步骤S233,详细介绍如下:
步骤S231,将实体关系拼接在目标文本之后,得到实体关系拼接文本。
在本实施例中,为了能够从目标文本准确地抽取实体关系相对应的头实体,需要将实体关系拼接在目标文本之后,得到实体关系拼接文本,然后从实体关系拼接文本中进行实体关系所对应头实体的抽取。
在针对实体关系拼接文本进行头实体抽取的过程中,将其中含有的实体关系作为依据抽取相应的头实体,可以保证所抽取得到的头实体一定是与实体关系相对应的,进而保证了头实体抽取的准确性。例如,图4所示的实体关系拼接文本1是由目标文本“《邪少兵王》是冰火未央写的网络小说”和实体关系“作者”拼接得到的,基于实体关系“作者”可以预测得到相应的头实体为“邪少兵王”。
当确定与目标文本相匹配的实体关系为多个时,为保证头实体抽取的单一性,需要复制目标文本,直至目标文本的数量与实体关系的数量相同,然后将多个实体关系分别拼接在不同的目标文本中,得到多个实体关系拼接文本。例如,图4所示的实体关系拼接文本2至6即是根据同一目标文本含有的多个实体关系进行拼接处理得到的。
需要理解的是,头实体抽取的单一性是指基于以上过程所得到的多个实体关系拼接文本中,每个实体关系拼接文本中均只含有一个实体关系,并且各个实体关系拼接文本中含有的实体关系各不相同,在针对各个实体关系拼接文本进行头实体抽取时,基于实体关系拼接文本中含有的唯一实体关系抽取相应的头实体,相较于一次性从实体关系拼接文本中抽取多个实体关系对应的头实体的方式更加高效和精确,进一步保证了本实施例抽取得到的头实体的准确性。
步骤S233,对实体关系拼接文本中的各个字符进行特征向量提取,得到由实体关系拼接文本中的各个字符对应的特征向量组成的第一特征向量序列。
在本实施例中,在实体关系拼接文本中提取与实体关系相对应的头实体是基于人工智能技术实现的,用以大幅度提升结构化信息的抽效率,因此需要对实体关系文本中的各个字符进行特征向量提取,以得到实体关系拼接文本中的各个字符对应的特征向量组成的第一特征向量序列。
示例性的,对实体关系拼接文本中的各个字符进行特征向量提取的详细过程如下:
在实体关系拼接文本的起始位置添加第一指定标识,以及在实体关系拼接文本对应的文本拼接位置添加第二指定标识,然后将添加有第一指定标识和第二指定标识的实体关系拼接文本输入特征向量提取模型中,以基于特征向量提取模型对实体关系拼接文本中的各个字符进行特征向量提取。
其中,特征向量提取模型可以是常见的Embedding(词嵌入)模型,第一指定标识可以是“[CLS]”,第二指定标识可以是“[SEP]”,实体关系拼接文本对应的文本拼接位置是指结构化文本中的最后一个字符与实体关系中的第一个字符之间的位置,在文本拼接位置添加指定标识用于对实体关系拼接文本中含有的目标文本和实体关系进行区分,使得后续进行头实体抽取时基于指定标识符确定的实体关系,准确地提取实体关系对应的头实体。
步骤S235,根据头实体抽取模型,对第一特征向量序列进行实体类型识别处理,得到实体关系拼接文本中含有的与实体关系相对应的头实体。
首先说明的是,头实体抽取模型也是训练得到人工智能模型,用于预测输入其中的第一特征向量序列中的各个特征向量对应的字符类型,因此头实体抽取模型也是一种分类模型。
在头实体抽取模型中,预先配置有字符类型集合,例如该字符类型集合包括“B-SUB”、“I-SUB”、“[##WordPiece]”和“0”,其中“B-SUB”表示头实体起始字符,用于标注头实体的起始位置;“I-SUB”表示头实体后续字符,用于标注头实体的后续位置;“[##WordPiece]”表示特定字符,该特定字符一般是“##”对应的字符;“0”表示其它字符,用于标识除前述情况之外的其它情形。
在将第一特征向量序列输入头实体抽取模型中之后,能够获得头实体抽取模型输出的与第一特征向量序列中的各个特征向量相对应的字符类型,例如可参见图4所示的实体关系拼接文本对应的头实体识别结果。
然后,通过在实体关系拼接文本中确定字符类型为头实体起始字符以及头实体后续字符对应的各个目标字符,头实体后续字符对应的目标字符位于头实体起始字符对应的目标字符之后,并且头实体起始字符对应的目标字符与头实体后续字符对应的目标字符构成连续的字符串,即可将此字符串作为与实体关系相对应的头实体。
以图4所示的实体关系拼接文本对应的头实体识别结果中的头实体识别结果1为例进行说明,其表示实体关系拼接文本“《邪少兵王》是冰火未央写的网络小说作者”中各个字符对应的字符类型为“0B-SUB I-SUB I-SUB I- SUB 0 0 0 0 0 0 0 0 0 0 0 0 0”,字符类型串“B-SUB I-SUB I-SUB I-SUB”对应于实体关系拼接文本中的字符串为“邪少兵王”,由此得到实体关系“作者”对应的头实体为“邪少兵王”。
因此,基于本实施例提供的头实体抽取方案,可以准确且快速地抽取得到目标文本中含有的各个头实体,并且抽取过程是由人工智能模型自动执行,十分方便。
在一些实施例中,在目标文本中进行实体关系问题中的头实体以及实体关系所对应尾实体的抽取过程,与上述实施例在目标文本中抽取实体关系对应的头实体的过程同理,详细包括如下过程:
首先,将实体关系问题拼接在目标文本之后,得到问题拼接文本,使得后续根据问题拼接文本中含有的实体关系问题,在问题拼接文本所含有的目标文本中确定实体关系问题的答案,从而得到与实体关系问题相对应的尾实体。
若同一目标文本中含有与其相匹配的多个实体关系,和/或与实体关系相对应的头实体为多个,都将使得同一目标文本对应含有多个实体关系问题。基于此,通过复制目标文本,直至目标文本的数量与实体关系问题的数量相同,然后将多个实体关系分别拼接在不同的目标文本中,得到多个问题拼接文本,并且多个实体关系拼接文本中含有的实体关系问题各不相同。例如,图5示出的示例性的问题拼接文本2至4是基于目标文本“步步惊心》改编自著名作家桐华的同名清穿小说《甄嬛传》改编自流潋紫所著的同名小说电视剧《何以笙箫默》改编自顾漫同名小说”得到的多个问题拼接文本。
然后,对问题拼接文本含有的各个字符进行特征向量提取,得到由问题拼接文本含有的各个字符对应的特征向量组成的第二特征向量序列。其中,对问题拼接文本含有的各个字符进行特征向量提取的过程,也可以是由特征向量提取模型自动执行的。
接下来,根据尾实体抽取模型对第二特征向量序列进行尾实体识别处理,可以得到问题拼接文本中含有的与实体关系问题中的头实体以及实体关系相对应的尾实体。
需要说明的是,尾实体抽取模型中预先配置有字符类型集合可以包括“B-OBJ”、“I-OBJ”、“[##WordPiece]”和“0”,相区别的是,尾实体抽取模型中配置的“B-OBJ”表示尾实体起始字符,用于标识尾实体的起始位置;“I-OBJ”表示尾实体后续字符,用于标识尾实体的后续位置。
其中,根据尾实体抽取模型对第二特征向量序列进行尾实体识别处理,可以包括如下过程:
将第二特征向量序列输入尾实体抽取模型,获得头实体抽取模型输出的与第二特征向量序列中的各个特征向量相对应的字符类型。然后,在实体关系拼接文本中确定字符类型为尾实体起始字符以及尾实体后续字符对应的各个目标字符,尾实体后续字符对应的目标字符位于尾实体起始字符对应的目标字符之后,并且尾实体起始字符对应的目标字符与尾实体后续字符对应的目标字符构成连续的字符串,将此字符串作为与实体关系问题中含有的头实体及实体关系相对应的尾实体。例如在图5所示的问题拼接文本对应的尾实体识别结果1中,将字符类型串“B-OBJ I-OBJ I-OBJ I-OBJ”对应的字符串“冰火未央”作为与实体关系问题“邪少兵王,作者”相对应的尾实体。
需要说明的是,在一些实施例中,头实体抽取模型和尾实体抽取模型中均可以含有双向长短期记忆网络和条件随机场网络,并且将双向长短期记忆网络的输出信号作为条件随机场网络的输入信号,详细的模型结构可以参考图6。
在图6所示的模型结构中,补充文本是指拼接在结构化文本之后的信息,例如在抽取实体关系对应的头实体时,该补充文本是指实体关系,在抽取尾实体时,该补充文本是指实体关系问题。其中,特征向量提取网络100用于提取目标文本与补充文本所拼接得到的文本中的各个字符对应的特征向量,双向长短期记忆网络200和条件随机场网络300用于帮助模型加深文本序列与预设的字符类型集合中的字符类型之间的联系,使得在头实体和尾实体抽取过程中,充分地基于上下文信息进行与补充文本相对应的实体(头实体或尾实体)的抽取,使得所抽取得到的实体是准确的。
并且,双向长短期记忆网络200和条件随机场网络300还用于帮助提高不同字符类型之间的区分,例如在基于此模型得到的文本字符类型结果中,位于字符类型为“B-SUB”之后的字符类型为“I-SUB”或者“0”,而位于字符类型为“0”之后不会出现字符类型“I-SUB”。因此,采用本实施例提出的模型结构可以极大提升文本中各个字符对应的字符类型的预测准确度,从而保证从文本中抽取的实体是准确的。
图7是基于图2所示实施例提出的另一种信息抽取方法的流程图,该方法在图2所示的步骤S210之前还包括步骤S310至步骤S350,详细介绍如下:
步骤S310,获取待进行信息抽取的源文档。
待进行信息抽取的源文档可以是从于新闻、政务、文旅、百科等网站上爬取得到的,也可以是一些语料集,或者是其它类型的文本,本实施例不对此进行限制。
步骤S330,对源文档进行数据预处理。
在本实施例中,考虑到从网站上爬取到的内容或者语料集中通常含有大量文本内容,并且文本格式混乱,这些问题都会影响源文档信息抽取的准确程度和效率,因此需要源文档进行数据预处理,以消除源文档中含有的不利因素对于源文档信息抽取的影响。
数据预处理可以包括去除源文档中含有的特殊符号、将源文档中的小写字母转换为大写字母、将源文档中含有的繁体字转换为简体字中的至少一种,本处不进行限制。
步骤S350,将数据预处理后的源文档切分为多个目标文本,各个目标文本的字符长度均小于字符长度阈值。
考虑到在文本内容过多的情况下,人工智能模型所需要处理的工作量非常大,容易导致人工智能模型容易出现卡顿、异常退出等情况,严重影响信息抽取的效率。人工智能模型是指前述实施例中提及到的属性分类模型、特征向量提取模型、头实体抽取模型以及尾实体抽取模型。
因此在本实施中,将数据预处理后的源文档切分为多个目标文本,各个目标文本的字符长度均小于字符长度阈值,字符长度阈值例如可以是人工智能模型在性能最优下能够处理的最大字符长度,后续只需要依次对不同的目标文本进行结构化信息的提取,并将各个目标文本含有的结构化信息组合形成源文档含有的结构化信息,即能够保证针对源文档进行信息抽取的过程有条不紊地进行,由此能够提升针对源文档进行信息抽取的效率。
在得到源文档含有的结构化信息之后,还可以对结构化信息进行清洗,例如可以基于正则表达式在结构化信息中匹配指定格式的字符串,并将这些字符串由指定格式转换为目标格式。例如,可以将结构化信息中含有的电话号码统一为数字号码格式,将结构化信息中含有的日期统一为“****年**月 **日”的日期格式。
由此,基于本实施例的方法可以得到规范化的结构化信息,规范化的结构化信息也更加便于在实际的应用场景中使用。
需要说明的是,在其它的一些实施例中,对结构化信息的清洗可以是在得到各个目标文本所含有的结构化信息之后执行的,也能够保证针对各个目标文本含有的结构化信息汇总后的结构化信息是规范的。
图8是本申请提出的一种示例性应用场景的流程示意图。
如图8所示,由于源文档中通常含有影响信息抽取的不利因素,例如源文档的文本内容过长、源文档中含有繁体字、源文档中同时含有大写字母和小写字母等,这些因素都将影响后续的属性分类模型、头实体分类模型、尾实体抽取模型对于文本内容进行识别和处理的准确性和效率,因此需要对源文档进行文档预处理。
例如,文档预处理的过程可以包括:对源文档进行数据预处理,例如去除源文档中含有的特殊符号,将源文档中的小写字母转换为大写字母,将源文档中含有的繁体字转换为简体字等,然后将数据预处理后的源文档切分为多个字符长度小于字符长度阈值的目标文本。
由此,通过对源文档进行文档预处理,可以得到多个便于进行结构化信息抽取的目标文本。
针对以上得到的各个目标文本,通过属性分类模型21对目标文本进行属性分类处理,得到与目标文本中含有的实体之间的实体关系,并通过头实体抽取模型22从目标文本中抽取与实体关系相对应的头实体,在将头实体与相应的实体关系进行组合得到实体关系问题之后,通过尾实体抽取模型23从目标文本中抽取实体关系问题对应的答案,并将得到的答案作为与实体关系问题中的头实体以及实体关系相对应的尾实体,基于头实体、实体关系及尾实体即可构成目标文本含有的结构化信息。
基于以上过程,即可得到各个目标文本所含有的结构化信息,通过对各个目标文本所含有的结构化信息进行汇总,即可得到源文档所含有的结构化信息。
在得到源文档所含有的结构化信息之后,还需要对结构化信息进行清洗,例如基于正则表达式在结构化信息中匹配指定格式的字符串,并将匹配得到的字符串由指定格式转换为目标格式,从而得到规范化的结构化信息。
规范化的结构化信息可以用于快速构建知识图谱,构建得到的知识图谱可以应用在智能问答平台上,以保证智能问答平台能够精准且快速地回答用户问题,使智能问答平台具有更优性能。
另外还需要提及的是,为了验证本申请所提出的信息抽取方案的效果,使用相同的源文档分别本申请提出的信息抽取方案和传统的信息抽取方案进行测试,通过对分别测试得到的结构化信息进行比较,可以得到下表1所示的对比结果:
Figure RE-GDA0002789705170000171
表1
其中,准确率是指在所有的目标文本样例中,准确地抽取得到结构化信息的目标文本样例所占的比例,召回率是指在目标文本样例包含的所有正例中,准确地抽取得到结构化信息的目标文件样本所占的比例,整体性能指标是准确率和召回率的综合指标,用于反映信息抽取方案的整体性能。根据上表1可以看出,本申请所提出的信息抽取方案具有更高的召回率,方案的整体性能指标也更高,因此本申请所提出的信息抽取方案显然优于传统的信息抽取方案。
图9是一示例性实施例示出的一种信息抽取装置的框图。如图9所示,该信息抽取装置包括:
实体关系获取模块410,配置为对目标文本进行属性分类处理,得到与目标文本相匹配的关系属性,关系属性用于表征目标文本中包含的实体之间的实体关系;
头实体抽取模块430,配置为从目标文本中抽取与实体关系相对应的头实体;
实体关系问题构建模块450,配置为根据头实体和实体关系构建实体关系问题;
尾实体抽取模块470,配置为在目标文本中进行实体关系问题所对应答案的抽取,得到与实体关系问题中的头实体以及实体关系相对应的尾实体,并基于头实体、实体关系以及尾实体构成目标文本含有的结构化信息。
基于本实施例提出的信息抽取装置,可以快速且准确地得到目标文本中含有的结构化信息,即使在复杂场景下也具有很好的信息抽取效果。
在另一示例性实施例中,头实体抽取模块430包括:
第一文本拼接单元,配置为将实体关系拼接在目标文本之后,得到实体关系拼接文本;
第一特征提取单元,配置为对实体关系拼接文本中的各个字符进行特征向量提取,得到由实体关系拼接文本中的各个字符对应的特征向量组成的第一特征向量序列;
头实体识别单元,配置为根据头实体抽取模型对第一特征向量序列进行实体类型识别处理,得到实体关系拼接文本中含有的与实体关系相对应的头实体。
在另一示例性实施例中,头实体识别单元包括:
字符类型获取子单元,配置为将第一特征向量序列输入头实体抽取模型中,获得头实体抽取模型输出的与第一特征向量序列中的各个特征向量相对应的字符类型;
目标字符确定子单元,配置为在实体关系拼接文本中确定字符类型为头实体起始字符以及头实体后续字符对应的各个目标字符,头实体后续字符对应的目标字符位于头实体起始字符对应的目标字符之后,并且头实体起始字符对应的目标字符与头实体后续字符对应的目标字符构成连续的字符串;
字符串获取子单元,配置为将字符串作为与实体关系相对应的头实体。
在另一示例性实施例中,第一文本拼接单元包括:
文本复制子单元,配置为复制目标文本,直至目标文本的数量与实体关系的数量相同;
多文本拼接子单元,配置为将多个实体关系分别拼接在不同的目标文本中,得到多个实体关系拼接文本,多个实体关系拼接文本中含有的实体关系各不相同。
在另一示例性实施例中,第一特征提取单元包括:
标识添加子单元,配置为在实体关系拼接文本的起始位置添加第一指定标识,以及在实体关系拼接文本对应的文本拼接位置添加第二指定标识;
字符向量获取子单元,配置为将添加有第一指定标识和第二指定标识的实体关系拼接文本输入特征向量提取模型中,以基于特征向量提取模型,对实体关系拼接文本中的各个字符进行特征向量提取。
在另一示例性实施例中,该信息抽取装置还包括:
源文档获取模块,配置为获取待进行信息抽取的源文档;
源文档切分模块,配置为将源文档切分为多个目标文本,各个目标文本的字符长度均小于字符长度阈值,各个目标文本含有的结构化信息组合形成源文档含有的结构化信息。
在另一示例性实施例中,该信息抽取装置还包括预处理模块,配置为对源文档进行数据预处理,数据预处理包括去除源文档中含有的特殊符号、将源文档中的小写字母转换为大写字母、将源文档中含有的繁体字转换为简体字中的至少一种。
在另一示例性实施例中,实体关系获取模块410包括:
信息输入单元,配置为将目标文本输入属性分类模型中,属性分类模型用于从关系属性集合中预测与目标文本的文本内容相匹配的关系属性;
信息获取单元,配置为获取属性分类模型针对目标文本输出的关系属性。
在另一示例性实施例中,实体关系问题构建模块450包括:
多实体信息确定单元,配置为确定目标文本中含有的多个实体关系,以及与各个实体关系相对应的头实体;
问题构建单元,配置为根据各个实体关系与相对应的头实体构建实体关系问题。
在另一示例性实施例中,尾实体抽取模块470包括:
第二文本拼接单元,配置为将实体关系问题拼接在目标文本之后,得到问题拼接文本;
第二特征提取单元,配置为对问题拼接文本含有的各个字符进行特征向量提取,得到由问题拼接文本含有的各个字符对应的特征向量组成的第二特征向量序列;
尾实体识别单元,配置为根据尾实体抽取模型对第二特征向量序列进行尾实体识别处理,得到问题拼接文本中含有的与实体关系问题中的头实体以及实体关系相对应的尾实体。
在另一示例性实施例中,尾实体抽取模型中含有双向长短期记忆网络和条件随机场网络,条件随机场网络的输入信号为双向长短期记忆网络的输出信号。
在另一示例性实施例中,该信息抽取装置还包括:
信息匹配模块,配置为基于正则表达式在目标文本含有的结构化信息中匹配指定格式的字符串;
信息转换模块,配置为将字符串由指定格式转换为目标格式,以得到规范化的结构化信息。
需要说明的是,上述实施例所提供的装置与上述实施例所提供的方法属于同一构思,其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述,此处不再赘述。
本申请的实施例还提供了一种电子设备,包括处理器和存储器,其中,存储器上存储有计算机可读指令,该计算机可读指令被处理器执行时实现如前所述的信息抽取方法。
图10示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图10示出的电子设备的计算机系统1600仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图10所示,计算机系统1600包括中央处理单元(Central Processing Unit,CPU)1601,其可以根据存储在只读存储器(Read-Only Memory, ROM)1602中的程序或者从存储部分1608加载到随机访问存储器 (Random Access Memory,RAM)1603中的程序而执行各种适当的动作和处理,例如执行上述实施例中所述的方法。在RAM 1603中,还存储有系统操作所需的各种程序和数据。CPU 1601、ROM 1602以及RAM 1603通过总线1604彼此相连。输入/输出(Input/Output,I/O)接口1605也连接至总线1604。
以下部件连接至I/O接口1605:包括键盘、鼠标等的输入部分1606;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分1607;包括硬盘等的存储部分1608;以及包括诸如LAN(Local AreaNetwork,局域网)卡、调制解调器等的网络接口卡的通信部分1609。通信部分1609经由诸如因特网的网络执行通信处理。驱动器1610也根据需要连接至I/O接口1605。可拆卸介质1611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1610上,以便于从其上读出的计算机程序根据需要被安装入存储部分1608。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中,该计算机程序可以通过通信部分1609从网络上被下载和安装,和/或从可拆卸介质1611被安装。在该计算机程序被中央处理单元(CPU)1601执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD- ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如前所述的信息抽取方法。该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的,也可以是单独存在,而未装配入该电子设备中。
本申请的还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各个实施例中提供的信息抽取方法。
上述内容,仅为本申请的较佳示例性实施例,并非用于限制本申请的实施方案,本领域普通技术人员根据本申请的主要构思和精神,可以十分方便地进行相应的变通或修改,故本申请的保护范围应以权利要求书所要求的保护范围为准。

Claims (15)

1.一种信息抽取方法,其特征在于,包括:
对目标文本进行属性分类处理,得到与所述目标文本相匹配的关系属性,所述关系属性用于表征所述目标文本中包含的实体之间的实体关系;
从所述目标文本中抽取与所述实体关系相对应的头实体;
根据所述头实体和所述实体关系构建实体关系问题;
在所述目标文本中进行所述实体关系问题所对应答案的抽取,得到与所述实体关系问题中的头实体以及实体关系相对应的尾实体,并基于所述头实体、所述实体关系以及所述尾实体构成所述目标文本对应的结构化信息。
2.根据权利要求1所述的方法,其特征在于,从所述目标文本中抽取与所述实体关系相对应的头实体,包括:
将所述实体关系拼接在所述目标文本之后,得到实体关系拼接文本;
对所述实体关系拼接文本中的各个字符进行特征向量提取,得到由所述实体关系拼接文本中的各个字符对应的特征向量组成的第一特征向量序列;
根据头实体抽取模型对所述第一特征向量序列进行实体类型识别处理,得到所述实体关系拼接文本中含有的与所述实体关系相对应的头实体。
3.根据权利要求2所述的方法,其特征在于,根据头实体抽取模型对所述第一特征向量序列进行实体类型识别处理,得到所述实体关系拼接文本中含有的与所述实体关系相对应的头实体,包括:
将所述第一特征向量序列输入所述头实体抽取模型中,获得所述头实体抽取模型输出的与所述第一特征向量序列中的各个特征向量相对应的字符类型;
在所述实体关系拼接文本中确定字符类型为头实体起始字符以及头实体后续字符对应的各个目标字符,所述头实体后续字符对应的目标字符位于所述头实体起始字符对应的目标字符之后,并且所述头实体起始字符对应的目标字符与所述头实体后续字符对应的目标字符构成连续的字符串;
将所述字符串作为与所述实体关系相对应的头实体。
4.根据权利要求2所述的方法,其特征在于,与所述目标文本相匹配的实体关系为多个;将所述实体关系拼接在所述目标文本之后,得到实体关系拼接文本,包括:
复制所述目标文本,直至所述目标文本的数量与所述实体关系的数量相同;
将所述多个实体关系分别拼接在不同的所述目标文本中,得到多个实体关系拼接文本,所述多个实体关系拼接文本中含有的实体关系各不相同。
5.根据权利要求2所述的方法,其特征在于,对所述实体关系拼接文本中的各个字符进行特征向量提取,包括:
在所述实体关系拼接文本的起始位置添加第一指定标识,以及在所述实体关系拼接文本对应的文本拼接位置添加第二指定标识;
将添加有所述第一指定标识和所述第二指定标识的实体关系拼接文本输入特征向量提取模型中,以基于所述特征向量提取模型,对所述实体关系拼接文本中的各个字符进行特征向量提取。
6.根据权利要求1所述的方法,其特征在于,在对目标文本进行属性分类处理之前,所述方法还包括:
获取待进行信息抽取的源文档;
将所述源文档切分为多个目标文本,各个目标文本的字符长度均小于字符长度阈值,所述各个目标文本含有的结构化信息组合形成所述源文档含有的结构化信息。
7.根据权利要求6所述的方法,在将所述源文档切分为多个目标文本之前,所述方法还包括:
对所述源文档进行数据预处理,所述数据预处理包括去除所述源文档中含有的特殊符号、将所述源文档中的小写字母转换为大写字母、将所述源文档中含有的繁体字转换为简体字中的至少一种。
8.根据权利要求1所述的方法,其特征在于,对目标文本进行属性分类处理,得到与所述目标文本相匹配的关系属性,包括:
将所述目标文本输入属性分类模型中,所述属性分类模型用于从关系属性集合中预测与所述目标文本的文本内容相匹配的关系属性;
获取所述属性分类模型针对所述目标文本输出的所述关系属性。
9.根据权利要求1所述的方法,其特征在于,根据所述头实体和所述实体关系构建实体关系问题,包括:
确定所述目标文本中含有的多个实体关系,以及与各个实体关系相对应的头实体;
根据所述各个实体关系与相对应的头实体构建实体关系问题。
10.根据权利要求1所述的方法,其特征在于,在所述目标文本中进行所述实体关系问题所对应答案的抽取,得到与所述实体关系问题中的头实体以及实体关系相对应的尾实体,包括:
将所述实体关系问题拼接在所述目标文本之后,得到问题拼接文本;
对所述问题拼接文本含有的各个字符进行特征向量提取,得到由所述问题拼接文本含有的各个字符对应的特征向量组成的第二特征向量序列;
根据尾实体抽取模型对所述第二特征向量序列进行尾实体识别处理,得到所述问题拼接文本中含有的与所述实体关系问题中的头实体以及实体关系相对应的尾实体。
11.根据权利要求10所述的方法,其特征在于,所述尾实体抽取模型中含有双向长短期记忆网络和条件随机场网络,所述条件随机场网络的输入信号为所述双向长短期记忆网络的输出信号。
12.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于正则表达式在所述目标文本含有的结构化信息中匹配指定格式的字符串;
将所述字符串由所述指定格式转换为目标格式,以得到规范化的结构化信息。
13.一种信息抽取装置,其特征在于,包括:
实体关系获取模块,配置为对目标文本进行属性分类处理,得到与所述目标文本相匹配的关系属性,所述关系属性用于表征所述目标文本中包含的实体之间的实体关系;
头实体抽取模块,配置为从所述目标文本中抽取与所述实体关系相对应的头实体;
实体关系问题构建模块,配置为根据所述头实体和所述实体关系构建实体关系问题;
尾实体抽取模块,配置为在所述目标文本中进行所述实体关系问题所对应答案的抽取,得到与所述实体关系问题中的头实体以及实体关系相对应的尾实体,并基于所述头实体、所述实体关系以及所述尾实体构成所述目标文本含有的结构化信息。
14.一种电子设备,其特征在于,包括:
存储器,存储有计算机可读指令;
处理器,读取存储器存储的计算机可读指令,以执行权利要求1-12中的任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行权利要求1-12中的任一项所述的方法。
CN202011038821.6A 2020-09-27 2020-09-27 信息抽取方法及装置、电子设备、存储介质 Active CN112131881B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011038821.6A CN112131881B (zh) 2020-09-27 2020-09-27 信息抽取方法及装置、电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011038821.6A CN112131881B (zh) 2020-09-27 2020-09-27 信息抽取方法及装置、电子设备、存储介质

Publications (2)

Publication Number Publication Date
CN112131881A true CN112131881A (zh) 2020-12-25
CN112131881B CN112131881B (zh) 2023-11-21

Family

ID=73840911

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011038821.6A Active CN112131881B (zh) 2020-09-27 2020-09-27 信息抽取方法及装置、电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN112131881B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112559897A (zh) * 2021-02-23 2021-03-26 浙江口碑网络技术有限公司 匹配关系的识别方法、装置及设备
CN112650845A (zh) * 2020-12-30 2021-04-13 西安交通大学 一种基于bert与知识表示学习的问答系统及方法
CN113157866A (zh) * 2021-04-27 2021-07-23 平安科技(深圳)有限公司 一种数据分析方法、装置、计算机设备及存储介质
CN113312486A (zh) * 2021-07-27 2021-08-27 中国电子科技集团公司第十五研究所 一种信号画像构建方法装置、电子设备、存储介质
CN113704481A (zh) * 2021-03-11 2021-11-26 腾讯科技(深圳)有限公司 一种文本处理方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110795543A (zh) * 2019-09-03 2020-02-14 腾讯科技(深圳)有限公司 基于深度学习的非结构化数据抽取方法、装置及存储介质
CN111143454A (zh) * 2019-12-26 2020-05-12 腾讯科技(深圳)有限公司 一种文本输出方法、装置及可读存储介质
CN111143536A (zh) * 2019-12-30 2020-05-12 腾讯科技(深圳)有限公司 基于人工智能的信息抽取方法及存储介质和相关装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110795543A (zh) * 2019-09-03 2020-02-14 腾讯科技(深圳)有限公司 基于深度学习的非结构化数据抽取方法、装置及存储介质
CN111143454A (zh) * 2019-12-26 2020-05-12 腾讯科技(深圳)有限公司 一种文本输出方法、装置及可读存储介质
CN111143536A (zh) * 2019-12-30 2020-05-12 腾讯科技(深圳)有限公司 基于人工智能的信息抽取方法及存储介质和相关装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112650845A (zh) * 2020-12-30 2021-04-13 西安交通大学 一种基于bert与知识表示学习的问答系统及方法
CN112650845B (zh) * 2020-12-30 2023-01-03 西安交通大学 一种基于bert与知识表示学习的问答系统及方法
CN112559897A (zh) * 2021-02-23 2021-03-26 浙江口碑网络技术有限公司 匹配关系的识别方法、装置及设备
CN113704481A (zh) * 2021-03-11 2021-11-26 腾讯科技(深圳)有限公司 一种文本处理方法、装置、设备及存储介质
CN113704481B (zh) * 2021-03-11 2024-05-17 腾讯科技(深圳)有限公司 一种文本处理方法、装置、设备及存储介质
CN113157866A (zh) * 2021-04-27 2021-07-23 平安科技(深圳)有限公司 一种数据分析方法、装置、计算机设备及存储介质
CN113157866B (zh) * 2021-04-27 2024-05-14 平安科技(深圳)有限公司 一种数据分析方法、装置、计算机设备及存储介质
CN113312486A (zh) * 2021-07-27 2021-08-27 中国电子科技集团公司第十五研究所 一种信号画像构建方法装置、电子设备、存储介质
CN113312486B (zh) * 2021-07-27 2021-11-16 中国电子科技集团公司第十五研究所 一种信号画像构建方法装置、电子设备、存储介质

Also Published As

Publication number Publication date
CN112131881B (zh) 2023-11-21

Similar Documents

Publication Publication Date Title
CN111444340B (zh) 文本分类方法、装置、设备及存储介质
CN109241524B (zh) 语义解析方法及装置、计算机可读存储介质、电子设备
CN112131881B (zh) 信息抽取方法及装置、电子设备、存储介质
CN110442841B (zh) 识别简历的方法及装置、计算机设备、存储介质
CN110705301B (zh) 实体关系抽取方法及装置、存储介质、电子设备
CN112270196B (zh) 实体关系的识别方法、装置及电子设备
CN112101041B (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
CN110737758A (zh) 用于生成模型的方法和装置
CN109697239B (zh) 用于生成图文信息的方法
CN110674629A (zh) 标点符号标注模型及其训练方法、设备、存储介质
CN112287069B (zh) 基于语音语义的信息检索方法、装置及计算机设备
CN111222305A (zh) 一种信息结构化方法和装置
CN110390049B (zh) 一种面向软件开发问题的答案自动生成方法
CN116561538A (zh) 问答评分方法、问答评分装置、电子设备及存储介质
CN113158656B (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
CN112052424B (zh) 一种内容审核方法及装置
CN115292457A (zh) 知识问答方法、装置、计算机可读介质及电子设备
US20230114673A1 (en) Method for recognizing token, electronic device and storage medium
CN113742446A (zh) 一种基于路径排序的知识图谱问答方法及系统
CN113705207A (zh) 语法错误识别方法及装置
CN114372454A (zh) 文本信息抽取方法、模型训练方法、装置及存储介质
CN112199954A (zh) 基于语音语义的疾病实体匹配方法、装置及计算机设备
CN116450829A (zh) 医疗文本分类方法、装置、设备及介质
CN112613315B (zh) 一种文本知识自动抽取方法、装置、设备及存储介质
CN113705232B (zh) 文本处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40035413

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant