CN111552819B - 一种实体提取方法、装置及可读存储介质 - Google Patents

一种实体提取方法、装置及可读存储介质 Download PDF

Info

Publication number
CN111552819B
CN111552819B CN202010350669.9A CN202010350669A CN111552819B CN 111552819 B CN111552819 B CN 111552819B CN 202010350669 A CN202010350669 A CN 202010350669A CN 111552819 B CN111552819 B CN 111552819B
Authority
CN
China
Prior art keywords
word
extracted
unit
text
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010350669.9A
Other languages
English (en)
Other versions
CN111552819A (zh
Inventor
许泽柯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010350669.9A priority Critical patent/CN111552819B/zh
Publication of CN111552819A publication Critical patent/CN111552819A/zh
Application granted granted Critical
Publication of CN111552819B publication Critical patent/CN111552819B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例公开了一种实体提取方法、装置及可读存储介质;该方法包含获取待提取文本和该文本中实体对应的实体问题文本;构建实体问题文本中问题字单元的问题词界向量、待提取文本中待提取字单元的待提取词界向量;基于问题词界向量和待提取词界向量,生成问题字单元对应的问题词特征向量、待提取字单元对应的待提取词特征向量;分别将问题字单元的问题字特征向量与问题词特征向量进行融合、待提取字单元的待提取字特征向量与待提取词特征向量进行融合,得到问题字单元对应的融合后问题特征向量、待提取字单元对应的融合后待提取特征向量;根据融合后问题特征向量和融合后待提取特征向量,从待提取文本中提取实体问题文本对应的实体文本。

Description

一种实体提取方法、装置及可读存储介质
技术领域
本发明涉及人工智能技术领域,具体涉及一种实体提取方法、装置及可读存储介质。
背景技术
结构化信息提取可以将嵌入在文本中的非结构化信息自动提取转换为结构化信息,例如,可以从给定的文档中提取出一系列实体信息如人名、地名、时间等,并将提取到的信息采用文本的方式进行表示,以便对文本进行进一步的分析和处理。
现有的实体提取的方法,一种是对文本中包含有词的句子进行分类,以判断句子中是否包含实体,并针对包含有实体的句子,对该句子中的各个字进行识别,以从中确定出构成实体的字;另一种则是采用神经网络模型识别文本中可能为实体的开始边界和结束边界,将所有开始边界和结束边界进行组合后对其分类,以确定出实体信息。
在对现有技术的研究和实践过程中,本发明的发明人发现,采用目前的实体提取方法,难以准确地从给定文本中提取出实体信息。比如,采用上述前一种方法时,只是单纯对文本中的字进行识别,并没有利用字在文本中所具有的语义信息,因而导致对文本进行实体提取的准确度大大降低。
发明内容
本申请实施例提供一种实体提取方法、装置及可读存储介质,可以提高实体提取的准确度。
本申请实施例提供一种实体提取方法,包括:
获取待提取文本、以及用于提取待提取文本中实体所需的实体问题文本;
构建所述实体问题文本中问题字单元的问题词界向量、以及所述待提取文本中待提取字单元的待提取词界向量;
分别对所述问题词界向量和所述待提取词界向量进行字特征向量转换,得到所述问题字单元对应的问题字特征向量、以及所述待提取字单元对应的待提取字特征向量;
基于所述问题字单元的词界信息和所述问题字特征向量、所述待提取字单元的词界信息和所述待提取字特征向量,生成所述问题字单元对应的问题词特征向量、所述待提取字单元对应的待提取词特征向量;
分别将问题字特征向量与问题词特征向量进行融合、待提取字特征向量与待提取词特征向量进行融合,得到问题字单元对应的融合后问题特征向量、待提取字单元对应的融合后待提取特征向量;
根据所述融合后问题特征向量和所述融合后待提取特征向量,从所述待提取文本中提取所述实体问题文本对应的实体文本。
相应的,本申请实施例还提供了一种实体提取装置,包括:
获取单元,用于获取待提取文本、以及用于提取待提取文本中实体所需的实体问题文本;
构建单元,用于构建所述实体问题文本中问题字单元的问题词界向量、以及所述待提取文本中待提取字单元的待提取词界向量;
转换单元,用于分别对所述问题词界向量和所述待提取词界向量进行字特征向量转换,得到所述问题字单元对应的问题字特征向量、以及所述待提取字单元对应的待提取字特征向量;
生成单元,用于基于所述问题字单元的词界信息和所述问题字特征向量、所述待提取字单元的词界信息和所述待提取字特征向量,生成所述问题字单元对应的问题词特征向量、所述待提取字单元对应的待提取词特征向量;
融合单元,用于分别将问题字特征向量与问题词特征向量进行融合、待提取字特征向量与待提取词特征向量进行融合,得到问题字单元对应的融合后问题特征向量、待提取字单元对应的融合后待提取特征向量;
提取单元,用于根据所述融合后问题特征向量和所述融合后待提取特征向量,从所述待提取文本中提取所述实体问题文本对应的实体文本。
在一些实施例中,所述构建单元,用于:
分别对所述实体问题文本和所述待提取文本进行字单元切分,得到所述实体问题文本的问题字单元、所述待提取文本的待提取字单元;
获取所述问题字单元的词界信息、以及所述待提取字单元的词界信息;
基于问题字单元的词界信息和待提取字单元的词界信息,分别对问题字单元和待提取字单元进行向量表示,得到问题字单元的问题词界向量、待提取字单元的待提取词界向量。
在一些实施例中,所述转换单元,包括:
获取子单元,用于获取所述问题字单元的初始问题特征向量、所述待提取字单元的初始待提取特征向量;
融合子单元,用于将所述问题词界向量与所述问题字单元的初始问题特征向量进行融合、所述待提取词界向量与所述待提取字单元的初始待提取特征向量进行融合,得到所述问题字单元对应的融合后问题向量、所述待提取字单元对应的融合后待提取向量;
编码子单元,用于分别对所述融合后问题向量和所述融合后待提取向量进行编码,得到所述问题字单元对应的问题字特征向量、以及所述待提取字单元对应的待提取字特征向量。
在一些实施例中,所述获取子单元,用于:
在多个特征维度上对所述问题字单元、以及所述待提取字单元进行向量表示,得到所述问题字单元在多个特征维度上的初始问题特征向量、以及所述待提取字单元在多个特征维度上的初始待提取特征向量;
所述融合子单元,用于:
将所述问题词界向量与所述问题字单元在多个特征维度上的初始问题特征向量进行融合、所述待提取词界向量与所述待提取字单元在多个特征维度上的初始待提取特征向量进行融合,得到所述问题字单元对应的融合后问题向量、所述待提取字单元对应的融合后待提取向量。
在一些实施例中,所述融合子单元,具体用于:
获取每个特征维度上对应的权重;
基于每个特征维度上对应的权重,将所述问题词界向量与所述问题字单元在多个特征维度上的初始问题特征向量进行加权处理、所述待提取词界向量与所述待提取字单元在多个特征维度上的初始待提取特征向量进行加权处理,得到所述问题字单元对应的融合后问题向量、所述待提取字单元对应的融合后待提取向量。
在一些实施例中,所述生成单元,用于:
基于所述问题字单元的词界信息,将问题字特征向量进行融合,得到所述问题字单元对应的问题词特征向量;
基于所述待提取字单元的词界信息,将待提取字特征向量进行融合,得到所述待提取字单元对应的待提取词特征向量。
在一些实施例中,所述生成单元,具体用于:
根据所述待提取字单元的词界信息,确定所述待提取文本中待提取字单元的词界范围;
获取所述词界范围内待提取字单元对应的待提取字特征向量;
将所述词界范围内待提取字单元对应的待提取字特征向量进行融合,得到所述待提取字单元对应的待提取词特征向量。
在一些实施例中,所述提取单元,包括:
识别子单元,用于根据所述融合后问题特征向量和所述融合后待提取特征向量,识别所述待提取文本中待提取字单元的字单元类别,所述字单元类别包括:实体字单元类别、非实体字单元类别;
提取子单元,用于基于所述待提取文本中待提取字单元的字单元类别,提取所述实体问题文本对应的实体文本。
在一些实施例中,所述提取子单元,用于:
从所述待提取字单元中提取字单元类别为实体字单元类别的待提取字单元作为候选字单元;
将所述候选字单元组合成所述实体问题文本对应的实体文本。
在一些实施例中,所述转换单元,还用于:
采用预设实体提取模型,分别对所述问题词界向量和所述待提取词界向量进行字特征向量转换,得到所述问题字单元对应的问题字特征向量、以及所述待提取字单元对应的待提取字特征向量;
所述生成单元,还用于:
采用预设实体提取模型,基于所述问题字单元的词界信息和所述问题字特征向量、所述待提取字单元的词界信息和所述待提取字特征向量,生成所述问题字单元对应的问题词特征向量、所述待提取字单元对应的待提取词特征向量。
在一些实施例中,所述实体提取装置还包括训练单元,用于:
获取样本待提取文本、以及用于提取所述样本待提取文本中样本实体所需的样本实体问题文本;
构建所述样本实体问题文本中样本问题字单元的样本问题词界向量、以及所述样本待提取文本中样本待提取字单元的样本待提取词界向量;
采用实体提取模型,基于所述样本问题字单元的样本词界信息和样本问题词界向量、所述样本待提取字单元的样本词界信息和样本待提取词界向量,生成样本问题字单元对应的样本问题词特征向量、样本待提取字单元对应的样本待提取词特征向量;
采用实体提取模型,分别将所述样本问题字单元的样本问题字特征向量与样本问题词特征向量进行融合、所述样本待提取字单元的样本待提取字特征向量与样本待提取词特征向量进行融合,得到样本问题字单元对应的融合后样本问题特征向量、样本待提取字单元对应的融合后样本待提取特征向量;
采用实体提取模型,根据所述融合后样本问题特征向量和所述融合后样本待提取特征向量,从所述样本待提取文本中提取所述样本实体问题文本对应的预测实体文本;
通过所述预测实体文本、以及所述样本实体问题文本对应的样本实体文本,对所述实体提取模型进行训练,得到预设实体提取模型。
在一些实施例中,所述训练单元,用于:
获取初始文本;
基于文本的语法结构对所述初始文本进行划分,得到多个子文本;
将各个子文本作为样本待提取文本。
在一些实施例中,所述训练单元,用于:
对所述样本实体问题文本和所述样本待提取文本进行分词,得到所述样本实体问题文本的样本问题词单元、所述样本待提取文本的样本待提取词单元;
根据样本问题词单元中样本问题字单元之间的关联关系,确定样本问题词单元中样本问题字单元的样本词界信息;
根据样本待提取词单元中样本待提取字单元之间的关联关系,确定样本待提取词单元中样本待提取字单元的样本词界信息。
相应的,本申请还提供一种计算机设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现本申请实施例提供的任一种实体提取方法中的步骤。
此外,本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现本申请实施例提供的任一种实体提取方法中的步骤。
本申请实施例可以获取待提取文本、以及用于提取待提取文本中实体所需的实体问题文本;构建实体问题文本中问题字单元的问题词界向量、以及待提取文本中待提取字单元的待提取词界向量;分别对问题词界向量和待提取词界向量进行字特征向量转换,得到问题字单元对应的问题字特征向量、以及待提取字单元对应的待提取字特征向量;基于问题字单元的词界信息和问题字特征向量、待提取字单元的词界信息和待提取字特征向量,生成问题字单元对应的问题词特征向量、待提取字单元对应的待提取词特征向量;分别将问题字特征向量与问题词特征向量进行融合、待提取字特征向量与待提取词特征向量进行融合,得到问题字单元对应的融合后问题特征向量、待提取字单元对应的融合后待提取特征向量;根据融合后问题特征向量和融合后待提取特征向量,从待提取文本中提取实体问题文本对应的实体文本。由于该方案能够引入用于提取待提取文本中实体所需的实体问题文本作为实体的先验信息,并构建了实体问题文本中问题字单元的问题词界向量、待提取文本中待提取字单元的待提取词界向量,然后,基于问题词界向量、待提取词界向量,生成问题字单元对应的问题词特征向量、待提取字单元对应的待提取词特征向量,通过将问题字单元的问题字特征向量与问题词特征向量进行融合、待提取字单元的待提取字特征向量与待提取词特征向量进行融合,使得基于融合得到的融合后问题特征向量和融合后待提取特征向量,从待提取文本中进行实体提取的准确度大大提升。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本申请实施例提供的实体提取方法的场景示意图;
图1b是本申请实施例提供的实体提取方法的流程示意图;
图2a是本申请实施例提供的实体提取方法的另一流程示意图;
图2b是本申请实施例提供的实体提取方法中实体提取模型的架构示意图;
图3a是本申请实施例提供的实体提取装置的结构示意图;
图3b是本申请实施例提供的实体提取装置的另一结构示意图;
图3c是本申请实施例提供的实体提取装置的另一结构示意图;
图3d是本申请实施例提供的实体提取装置的另一结构示意图;
图4是本申请实施例提供的计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例提供一种实体提取方法、装置、计算机设备和计算机可读存储介质。其中,该实体提取装置可以集成在计算机设备中,该计算机设备可以是服务器,也可以是终端等设备。
本申请实施例提供的实体提取方案涉及人工智能的自然语言处理(NLP,NatureLanguage processing)。可以通过人工智能的自然语言处理技术实现从待提取文本中提取实体问题文本对应的实体文本。
其中,自然语言处理技术是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器阅读理解、机器翻译、机器人问答、知识图谱等技术。
例如,参见图1a,以该实体提取装置集成在计算机设备中为例,该计算机设备可以获取待提取文本、以及用于提取待提取文本中实体所需的实体问题文本;构建实体问题文本中问题字单元的问题词界向量、以及待提取文本中待提取字单元的待提取词界向量;分别对问题词界向量和待提取词界向量进行字特征向量转换,得到问题字单元对应的问题字特征向量、以及待提取字单元对应的待提取字特征向量;基于问题字单元的词界信息和问题字特征向量、待提取字单元的词界信息和待提取字特征向量,生成问题字单元对应的问题词特征向量、待提取字单元对应的待提取词特征向量;分别将问题字特征向量与问题词特征向量进行融合、待提取字特征向量与待提取词特征向量进行融合,得到问题字单元对应的融合后问题特征向量、待提取字单元对应的融合后待提取特征向量;根据融合后问题特征向量和融合后待提取特征向量,从待提取文本中提取实体问题文本对应的实体文本。
以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
在本实施例中,将从实体提取装置的角度进行描述,该实体提取装置具体可以集成在计算机设备中,例如,实体提取装置可以是设置于计算机设备中的实体装置,或者实体提取装置可以以客户端的形式集成在计算机设备中。该计算机设备可以是服务器,也可以是终端等设备;其中,该终端可以包括手机、平板电脑、笔记本电脑、个人计算机(PC,Personal Computer)、微型处理盒子、或者其他设备等。
如图1b所示,该实体提取方法的具体流程可以如下:
101、获取待提取文本、以及用于提取待提取文本中实体所需的实体问题文本。
其中,待提取文本是指需要从中提取或抽取信息的文本,例如,从待提取文本中提取或抽取出实体,该待提取文本可以是不同风格体裁的文本,例如,可以是法律裁判文书、简历、或者是各种文章和资料,等等。
其中,实体的类别可以有多种,比如,在法律裁判文书中实体的类别可以包括人名、地名、时间、有害物、重量,等等;又比如,简历中实体的类别则包括姓名、年龄、教育背景、应聘岗位,等等。
其中,实体问题文本为,根据不同类别的实体所描述的范围而提出的不同的问法(即问题),并采用文本的方式进行表示。例如,“人名”实体所代表的实体问题文本可以是:“请找出文中的人名,包括姓和名字,例如张X三、李X四,也可以是指代词,比如张某、刘某”;“地点”实体所代表的实体问题文本可以是:“请找出文中的地理位置,包括小区位置、地级市、省份、或者是具体位置信息的名词”;“时间”实体对应的实体问题文本可以是:“请找出文中的时间,可以是某年某月某日,也可以是具体到某个小时或者分钟,也可以是一些某些模糊的指代”,等等。
其中,待提取文本可以是由用户上传得到、也可以是接收其他设备如终端传送的文本来得到,等等。实体对应的实体问题文本可以为预设文本,即可以由标注人员根据不同风格题材的文本预先进行定义和设置。
在一实施例中,获取待提取文本,可以是通过对获取到的初始文本按句进行切分得到,将切分得到的每一个子文本作为待提取文本。
102、构建实体问题文本中问题字单元的问题词界向量、以及待提取文本中待提取字单元的待提取词界向量。
本申请实施例中,可以采用预训练模型来构建实体问题文本中问题字单元的问题词界向量、以及待提取文本中待提取字单元的待提取词界向量,例如,具体可以采用基于变压器的双向编码器表征模型(BERT,Bidirectional Encoder Representations fromTransformers)进行构建。具体地,可以先对实体问题文本和待提取文本进行字单元切分,根据字单元之间的词界信息,对字单元进行向量表示,从而得到字单元对应的词界向量,具体地,步骤“构建实体问题文本中问题字单元的问题词界向量、以及待提取文本中待提取字单元的待提取词界向量”,可以包括:
分别对实体问题文本和待提取文本进行字单元切分,得到实体问题文本的问题字单元、待提取文本的待提取字单元;
获取问题字单元的词界信息、以及待提取字单元的词界信息;
基于问题字单元的词界信息和待提取字单元的词界信息,分别对问题字单元和待提取字单元进行向量表示,得到问题字单元的问题词界向量、待提取字单元的待提取词界向量。
其中,字单元是指将文本的最小构成单元,比如构成词的最小构成单元,该最小构成单元可以根据实际应用的需求进行定义,例如,字单元可以为一个字、或者是一个词,该字单元可以是中文、或者英文等语言表示下的字单元。本申请实施例以中文文本中的每一个字作为一个字单元为例进行说明,对实体问题文本和待提取文本进行字单元切分,即是为了得到实体问题文本中的每一个字、以及待提取文本中的每个字。
其中,字单元的词界信息为字单元所构成的词的边界信息,该边界信息可以表征该词的起止字单元,比如,词“西红柿”中的起始字单元为“西”、终止字单元为“柿”、“红”为该词中间部分的字单元。文本中每个字都对应一个词界信息,以表示该字在某个词中的起止信息。而对于独立的字,即不构成词的字,也对应有词界信息,即其表示的边界信息就是该字本身。例如,在文本“缴获有害物10.5公斤”中,对该文本进行分词后,得到该文本中的“缴获”为一个词,“有害物”为一个词,“10.5公斤”为一个词,然后,采用BIO的标注方式对各个词中的每个字进行标注,从而得到每个字的词界信息,如:“缴(B-WORD)获(I-WORD)有(B-WORD)害(I-WORD)物(I-WORD)10.5(B-WORD)公(I-WORD)斤(I-WORD)”中,“缴”为词“缴获”的开始部分的字、“获”为中间部分的字,同时,“获”也可以理解为是词“缴获”的结束位置,因为它的下一个字“有”的标注为B,是另一个词(“有害物”)的开始字。其中,B表示词(WORD)的开头、I表示词的中间、O则表示不是词。
在一实施例中,BERT模型根据问题字单元的词界信息和待提取字单元的词界信息,分别对问题字单元和待提取字单元进行向量转换,则可以得到问题字单元的问题词界向量、以及待提取字单元的待提取词界向量。
103、分别对问题词界向量和待提取词界向量进行字特征向量转换,得到问题字单元对应的问题字特征向量、以及待提取字单元对应的待提取字特征向量。
本申请实施例中,为了增强问题字单元和待提取字单元在实体问题文本和待提取文本中的语义表示,可以采用预设实体提取模型中的BERT模型分别对问题词界向量和待提取词界向量进行字特征向量转换。
BERT模型是一种利用海量文本获取语言的预训练模型,拥有较强的语义表示能力,可以取得更高的精准度。具体地,步骤“分别对问题词界向量和待提取词界向量进行字特征向量转换,得到问题字单元对应的问题字特征向量、以及待提取字单元对应的待提取字特征向量”,可以包括:
获取问题字单元的初始问题特征向量、待提取字单元的初始待提取特征向量;
将问题词界向量与问题字单元的初始问题特征向量进行融合、待提取词界向量与待提取字单元的初始待提取特征向量进行融合,得到问题字单元对应的融合后问题向量、待提取字单元对应的融合后待提取向量;
分别对融合后问题向量和融合后待提取向量进行编码,得到问题字单元对应的问题字特征向量、以及待提取字单元对应的待提取字特征向量。
其中,初始问题特征向量可以是问题字单元在多个特征维度上的向量表示,初始待提取特征向量可以是待提取字单元在多个特征维度上的向量表示,具体地,步骤“获取问题字单元的初始问题特征向量、待提取字单元的初始待提取特征向量”,可以包括:
在多个特征维度上对问题字单元、以及待提取字单元进行向量表示,得到问题字单元在多个特征维度上的初始问题特征向量、以及待提取字单元在多个特征维度上的初始待提取特征向量;
则此时,步骤“将问题词界向量与问题字单元的初始问题特征向量进行融合、待提取词界向量与待提取字单元的初始待提取特征向量进行融合,得到问题字单元对应的融合后问题向量、待提取字单元对应的融合后待提取向量”,可以包括:
将问题词界向量与问题字单元在多个特征维度上的初始问题特征向量进行融合、待提取词界向量与待提取字单元在多个特征维度上的初始待提取特征向量进行融合,得到问题字单元对应的融合后问题向量、待提取字单元对应的融合后待提取向量。
其中,多个特征维度上的向量表示可以包括:字向量、片段向量、以及位置向量等,即可以采用BERT模型对问题字单元和待提取字单元在每个特征维度上进行向量表示,得到问题字单元的字单元向量、片段向量和位置向量,待提取字单元的字单元向量、片段向量和位置向量。其中,字向量是将文本中的字转化为向量进行表示;片段向量是用于刻画文本的全局语义信息,并与文本中字的语义信息相融合;位置向量则是为了区分在文本中不同位置出现的字所携带的不同语义信息(比如:“我爱你”和“你爱我”)而附加的向量。
在一实施例中,对问题词界向量与问题字单元在多个特征维度上的初始问题特征向量进行融合的方式可以有多种,例如,可以获取每个特征维度上对应的权重,根据每个特征维度上对应的权重,将问题词界向量与问题字单元在多个特征维度上的初始问题特征向量进行加权处理如进行加权求和,得到问题字单元对应的融合后问题向量,具体地,步骤“将问题词界向量与问题字单元在多个特征维度上的初始问题特征向量进行融合、待提取词界向量与待提取字单元在多个特征维度上的初始待提取特征向量进行融合,得到问题字单元对应的融合后问题向量、待提取字单元对应的融合后待提取向量”,可以包括:
获取每个特征维度上对应的权重;
基于每个特征维度上对应的权重,将问题词界向量与问题字单元在多个特征维度上的初始问题特征向量进行加权处理、待提取词界向量与待提取字单元在多个特征维度上的初始待提取特征向量进行加权处理,得到问题字单元对应的融合后问题向量、待提取字单元对应的融合后待提取向量。
例如,问题词界向量、待提取词界向量、字向量、片段向量、以及位置向量可以分别采用一维向量进行表示,将问题词界向量、问题字单元对应的字向量、片段向量和位置向量相加,则可以得到问题字单元对应的融合后问题向量;将待提取词界向量、待提取字单元对应的字向量、片段向量和位置向量进行相加,得到待提取字单元对应的融合后待提取向量。
将融合后问题向量和融合后待提取向量输入至BERT模型,即,采用BERT模型分别对融合后问题向量和融合后待提取向量进行编码,则可以得到问题字单元对应的问题字特征向量、以及待提取字单元对应的待提取字特征向量。
104、基于问题字单元的词界信息和问题字特征向量、待提取字单元的词界信息和待提取字特征向量,生成问题字单元对应的问题词特征向量、待提取字单元对应的待提取词特征向量。例如,具体可以如下:
基于问题字单元的词界信息,将问题字特征向量进行融合,得到问题字单元对应的问题词特征向量;
基于待提取字单元的词界信息,将待提取字特征向量进行融合,得到待提取字单元对应的待提取词特征向量。
例如,可以根据待提取字单元的词界信息,确定待提取文本中待提取字单元的词界范围,将属于同一词界范围内的待提取字单元对应的待提取字特征向量进行融合,得到待提取词特征向量。具体地,步骤“基于待提取字单元的词界信息,将待提取字特征向量进行融合,得到待提取字单元对应的待提取词特征向量”,可以包括:
根据待提取字单元的词界信息,确定待提取文本中待提取字单元的词界范围;
获取词界范围内待提取字单元对应的待提取字特征向量;
将词界范围内待提取字单元对应的待提取字特征向量进行融合,得到待提取字单元对应的待提取词特征向量。
其中,字单元的词界范围是指字单元所构成的词的边界范围,该边界范围可以指示该词的起止字单元、以及起止字单元之间的字单元。例如,在文本“我是中国人”中,“我”和“是”为独立的字,则他们的词界范围可以理解为0,而“中国人”为一个词,则“中”、“国”和“人”三个字为同一个词界范围的字,即,“中”就是词的开始字、“国”和“人”分别为词的中间字和结束字。
将待提取文本中属于同一词界范围内的待提取字单元对应的待提取字特征向量进行融合,得到待提取字单元对应的待提取词特征向量。
例如,文本“张某买了2斤西红柿”,分别将词“张某”中“张”字对应的字特征向量、与“某”字对应的字特征向量进行融合,将词“2斤”中的“2”字对应的字特征向量、与“斤”对应的字特征向量进行融合,将词“西红柿”中“西”字、“红”字和“柿”字各自对应的字特征向量进行融合,可以得到词“张某”的词特征向量、词“2斤”的词特征向量、以及词“西红柿”的词特征向量。其中,每个词中的字都对应该词的词特征向量,比如,“张”字和“某”字分别都对应词“张某”的词特征向量。
其中,融合的方式可以有多种,例如,可以将各个字特征向量进行相加、或者做最大池化(比如,取两个一维向量中的最大值作为融合后的一维向量中的值)等。
对问题字特征向量的融合过程,与上述过程同理。
需要说明的是,对于待提取字单元中不属于任一词(不构成词)的字单元,即独立的字单元,对其字特征向量可以不做处理。
105、分别将问题字特征向量与问题词特征向量进行融合、待提取字特征向量与待提取词特征向量进行融合,得到问题字单元对应的融合后问题特征向量、待提取字单元对应的融合后待提取特征向量。
为了提高实体提取的准确度,可以分别将问题字特征向量与问题词特征向量进行融合、待提取字特征向量与待提取词特征向量进行融合,其中,融合的方式可以有多种,例如,可以分别将问题字特征向量与问题词特征向量进行相加、待提取字特征向量与待提取词特征向量进行相加,得到问题字单元对应的融合后问题特征向量、待提取字单元对应的融合后待提取特征向量。
需要说明的是,对于不属于任一词中的待提取字单元,即独立的字单元,则可以将该待提取字单元对应的待提取字特征向量作为融合后待提取特征向量。
对字特征向量和词特征向量进行融合,不仅可以利用文本中字的信息,同时也在词的边界基础上引入了词的信息,通过字词融合的方式,能够更加准确地反映出文本中实体的边界信息,提高实体提取的准确度。
106、根据融合后问题特征向量和融合后待提取特征向量,从待提取文本中提取实体问题文本对应的实体文本。
例如,为了提高实体提取的准确度,可以采用预设实体提取模型中的序列标注模型如条件随机场模型(CRF,Conditional Random Field),根据融合后问题特征向量和融合后待提取特征向量,对待提取文本中待提取字单元的字单元类别进行识别,根据待提取字单元的类别识别结果,从待提取文本中提取实体问题文本对应的实体文本。具体地,步骤“根据融合后问题特征向量和融合后待提取特征向量,从待提取文本中提取实体问题文本对应的实体文本”,可以包括:
根据融合后问题特征向量和融合后待提取特征向量,识别待提取文本中待提取字单元的字单元类别,该字单元类别包括:实体字单元类别、非实体字单元类别;
基于待提取文本中待提取字单元的字单元类别,提取实体问题文本对应的实体文本。
例如,仍然可以采用BIO的标注方式对待提取文本中待提取字单元的字单元类别进行标注,根据标注结果,从待提取文本中确定出类别为实体字单元类别的字单元,其中,B表示实体的开头部分,I表示实体的中间部分,O则表示非实体部分。在一实施例中,可以将待提取字单元中类别为实体字单元类别的字单元进行组合,从而得到实体问题文本对应的实体文本。具体地,步骤“基于待提取文本中待提取字单元的字单元类别,提取实体问题文本对应的实体文本”,可以包括:
从待提取字单元中提取字单元类别为实体字单元类别的待提取字单元作为候选字单元;
将候选字单元组合成实体问题文本对应的实体文本。
在一实施例中,实体问题文本可以为不同实体类别对应的实体问题文本,将每种实体类别对应的实体问题文本分别与待提取文本作为预设实体提取模型的输入,从而可以从待提取文本中提取出不同实体类别的实体问题文本对应的实体文本。
例如,文本“孟某买了2斤某粉”中,每个字的类别识别结果为“孟(B-PERSON)、某(I-PERSON)、买(O)、了(O)、2(B-WEIGHT)、斤(I-WEIGHT)、某(B-DRUG)、粉(I-DRUG)”,则可以确定该文本中的实体分别为“孟某”、“2斤”和“某粉”,其中,实体“孟某”对应的实体类别为人名(PERSON),实体“2斤”对应的实体类别为重量(WEIGHT),实体“某粉”对应的实体类别为有害物(DRUG),“买”和“了”不为实体。
将从待提取文本中提取到的为实体字单元类别的字单元进行组合、并采用文本进行表示,则得到实体问题文本对应的实体文本。
在一实施例中,预设实体提取模型可以通过训练得到,则该实体提取方法还包括:
获取样本待提取文本、以及用于提取样本待提取文本中样本实体所需的样本实体问题文本;
构建样本实体问题文本中样本问题字单元的样本问题词界向量、以及样本待提取文本中样本待提取字单元的样本待提取词界向量;
采用实体提取模型,基于样本问题字单元的样本词界信息和样本问题词界向量、样本待提取字单元的样本词界信息和样本待提取词界向量,生成样本问题字单元对应的样本问题词特征向量、样本待提取字单元对应的样本待提取词特征向量;
采用实体提取模型,分别将样本问题字单元的样本问题字特征向量与样本问题词特征向量进行融合、样本待提取字单元的样本待提取字特征向量与样本待提取词特征向量进行融合,得到样本问题字单元对应的融合后样本问题特征向量、样本待提取字单元对应的融合后样本待提取特征向量;
采用实体提取模型,根据融合后样本问题特征向量和融合后样本待提取特征向量,从样本待提取文本中提取样本实体问题文本对应的预测实体文本;
通过预测实体文本、以及样本实体问题文本对应的样本实体文本,对该实体提取模型进行训练,得到预设实体提取模型。
例如,可以通过不断对提取到的样本实体问题文本对应的预测实体文本、以及样本实体问题文本对应的样本实体文本(即真实的实体文本)进行收敛,以调整该实体提取模型的参数,从而得到训练后的预设实体提取模型。
其中,样本待提取文本可以为一句话,即,根据文本的语法结构,对初始文本按句进行切分,将切分得到的每一句话作为样本待提取文本。具体地,步骤“获取样本待提取文本”,可以包括:获取初始文本;基于文本的语法结构对初始文本进行划分,得到多个子文本;将各个子文本作为样本待提取文本。
在一实施例中,对样本实体问题文本和待提取文本进行分词,根据分词结果确定样本实体问题文本中样本问题字单元的词界信息,样本待提取文本中样本待提取字单元的词界信息,具体地,该实体提取方法,还包括:
对样本实体问题文本和样本待提取文本进行分词,得到样本实体问题文本的样本问题词单元、样本待提取文本的样本待提取词单元;
根据样本问题词单元中样本问题字单元之间的关联关系,确定样本问题词单元中样本问题字单元的样本词界信息;
根据样本待提取词单元中样本待提取字单元之间的关联关系,确定样本待提取词单元中样本待提取字单元的样本词界信息。
其中,词单元是以文本中的每个词作为一个单元,为便于描述和区分,该词单元可以狭义的理解为是由至少两个字组成,例如,文本“我爱中国”中,“中国”可以作为一个词单元、“我”和“爱”分别为一个字单元。“中”的词界信息则表示该字为词“中国”起始部分的字、“国”的词界信息表示该字为“中国”结束部分的字。对于独立的字单元如“我”、“爱”,其词界信息就是指该字单元本身。
本申请实施例中,通过采用机器阅读理解的问题形式,引入实体问题文本作为待提取文本中实体的先验信息,也在一定程度上缓解了样本量不足的问题。
由上可知,本申请实施例可以获取待提取文本、以及用于提取待提取文本中实体所需的实体问题文本;构建实体问题文本中问题字单元的问题词界向量、以及待提取文本中待提取字单元的待提取词界向量;分别对问题词界向量和待提取词界向量进行字特征向量转换,得到问题字单元对应的问题字特征向量、以及待提取字单元对应的待提取字特征向量;基于问题字单元的词界信息和问题字特征向量、待提取字单元的词界信息和待提取字特征向量,生成问题字单元对应的问题词特征向量、待提取字单元对应的待提取词特征向量;分别将问题字特征向量与问题词特征向量进行融合、待提取字特征向量与待提取词特征向量进行融合,得到问题字单元对应的融合后问题特征向量、待提取字单元对应的融合后待提取特征向量;根据融合后问题特征向量和融合后待提取特征向量,从待提取文本中提取实体问题文本对应的实体文本。由于该方案能够引入用于提取待提取文本中实体所需的实体问题文本作为实体的先验信息,并构建了实体问题文本中问题字单元的问题词界向量、待提取文本中待提取字单元的待提取词界向量,然后,基于问题词界向量、待提取词界向量,生成问题字单元对应的问题词特征向量、待提取字单元对应的待提取词特征向量,通过将问题字单元的问题字特征向量与问题词特征向量进行融合、待提取字单元的待提取字特征向量与待提取词特征向量进行融合(即字词信息融合),使得基于融合得到的融合后问题特征向量和融合后待提取特征向量,从待提取文本中进行实体提取的准确度大大提升。
根据上述实施例所描述的方法,以下将举例作进一步详细说明。
在本实施例中,将以该实体提取装置具体集成在计算机设备中为例进行说明。
如图2a所示,一种实体提取方法,具体流程可以如下:
201、计算机设备获取待提取文本、以及用于提取待提取文本中实体所需的实体问题文本。
本申请实施例中,以待提取文本为法律裁判文书为例,在法律裁判文书中实体的类别可以包括人名、地名、时间、有害物、重量,等等;
每种类别的实体,其描述的范围不同,所构成的针对每种类别实体的问法即实体问题也不相同,例如,“人名”实体所代表的实体问题文本可以是:“请找出文中的人名,包括姓和名字,例如张X三、李X四,等等,也可以是指代词,比如张某、刘某”;“地点”所代表的实体问题文本可以是:“请找出文中的地理位置,包括小区位置、地级市、省份、或者是具体位置信息的名词”;“时间”对应的实体问题文本可以是:“请找出文中的时间,可以是某年某月某日,或者是具体到某个小时或者分钟,也可以是一些某些模糊的指代”,等等。
其中,获取待提取文本可以是由用户上传得到、也可以是接收其他设备如终端传送的待提取文本来得到,或者是从网上如裁判文书网上下载得到,等等。实体对应的实体问题文本可以为预设文本,即可以由标注人员根据不同风格体裁的文本预先进行定义和设置。
202、计算机设备构建实体问题文本中问题字单元的问题词界向量、以及待提取文本中待提取字单元的待提取词界向量。
例如,计算机设备分别对实体问题文本和待提取文本进行字单元切分,得到实体问题文本的问题字单元、待提取文本的待提取字单元;获取问题字单元的词界信息、以及待提取字单元的词界信息;基于问题字单元的词界信息和待提取字单元的词界信息,分别对问题字单元和待提取字单元进行向量表示,得到问题字单元的问题词界向量、待提取字单元的待提取词界向量。
例如,参见图2b,为实体提取模型的整体架构示意图,以实体问题文本中的问题字单元为q1、q2、q3……qm,待提取文本中的待提取字单元为“孟”、“某”、“买”、“了”、“2”、“斤”、“某”、“粉”作为实体提取模型的输入为例进行说明。其中,为了区分问题字单元和待提取字单元,可以使用特殊符号(如开始字符[CLS]和分隔字符[SEP])进行分隔,即,实体提取模型中输入层的输入形式为:[CLS]q1、q2、q3……qm[SEP]“孟”、“某”、“买”、“了”、“2”、“斤”、“某”、“粉”[SEP]。
以文本为“孟某买了2斤某粉”为例,对该文本进行分词后,得到“孟某”为一个词、“2斤”为一个词、“某粉”为一个词、“买”和“了”不是词,根据分词结果采用BIO的标注方式对文本中的每个字进行标注,然后,对该文本中的每个字分别进行向量表示得到每个字对应的词界向量,如:EB(孟)、EI(某)、EO(买)、EO(了)、EB(2)、EI(斤)、EB(某)、EI(粉),其中,B表示词的开头、I表示词的中间、O则表示不是词。其中,特殊符号[CLS]和[SEP]也不是词,则表示为EO
可以理解的是,与文本中已有的其它字相比,无明显语义信息的特殊符号[CLS]和[SEP],能够更“公平”地融合文本中各个字的语义信息。
203、计算机设备分别对问题词界向量和待提取词界向量进行字特征向量转换,得到问题字单元对应的问题字特征向量、以及待提取字单元对应的待提取字特征向量。
例如,计算机设备可以分别将问题词界向量和问题字单元在多个特征维度上的初始问题特征向量进行融合、待提取词界向量与待提取字单元在多个特征维度上的初始待提取特征向量进行融合,对融合得到的问题字单元对应的融合后问题向量、以及待提取字单元对应的融合后待提取向量进行编码,得到问题字单元对应的问题字特征向量、以及待提取字单元对应的待提取字特征向量。
例如,参见图2b,还以待提取文本为“孟某买了2斤某粉”为例,其中,计算机设备通过实体提取模型中的嵌入(embedding)层,对该文本中的每个字分别进行字向量表示、片段向量表示、以及位置向量表示,得到每个字对应的字向量:E、E、E、E、E2、E、E、E,片段向量:EA、EA、EA、EA、EA、EA、EA、EA,以及位置向量:E1、E2、E3、E4、E5、E6、E7、E8,然后,将每个字对应的词界向量与该字对应的字向量、片段向量和位置向量进行相加,得到每个字对应的融合后向量,然后,将每个字对应的融合后向量输入至encoder层,通过encoder层中的BERT模型对其进行编码,得到每个字对应的字特征向量:C、C、C、C、C2、C、C、C
204、计算机设备基于问题字单元的词界信息和问题字特征向量、待提取字单元的词界信息和待提取字特征向量,生成问题字单元对应的问题词特征向量、待提取字单元对应的待提取词特征向量。
例如,参见图2b,还以待提取文本为“孟某买了2斤某粉”为例,计算机设备根据文本中每个字的词界信息,将每个字对应的字特征向量进行融合,例如,将属于同一个词中的两个或多个字的字特征向量做一层最大池化,从而得到该词中每个字对应的词特征向量,比如,将char-level层的字特征向量C和C融合、C2和C融合、C和C融合,得到word-level层的词特征向量W孟某、W2斤、W某粉
205、计算机设备分别将问题字特征向量与问题词特征向量进行融合、待提取字特征向量与待提取词特征向量进行融合,得到问题字单元对应的融合后问题特征向量、待提取字单元对应的融合后待提取特征向量。
例如,参见图2b,将char-level层中每个字对应的字特征向量与word-level层中该字对应的词特征向量进行融合,则可以得到输出层中该字对应的融合后特征向量。比如,将C与W孟某相加,得到O;将C与W孟某相加,得到O;将C2与W2斤相加,得到O2;将CK与W某粉相加,得到OK;将C与W某粉相加,得到O
其中,对于单独的字,即不构成词的字,其融合后特征向量就是该字对应的字特征向量,例如,可以将“买”字对应的字特征向量C作为融合后特征向量,即O;“了”字对应的字特征向量C作为融合后特征向量,即O;对于特殊符号[CLS]和[SEP],其融合后特征向量分别为O[CLS]、O[SEP]
206、计算机设备根据融合后问题特征向量和融合后待提取特征向量,从待提取文本中提取实体问题文本对应的实体文本。
例如,可以根据融合后问题特征向量和融合后待提取特征向量,对待提取文本中的每个待提取字单元进行字单元类别的识别,根据识别结果从待提取文本中提取实体问题文本对应的实体文本。例如,可以通过实体提取模型中的CRF层,对文本“孟某买了2斤某粉”中的每个字采用BIO的标注方式进行类别标注,得到标注结果为:孟(B-PER)、某(I-PER)、买(O)、了(O)、2(B-WEI)、斤(I-WEI)、某(B-DRU)、粉(I-DRU)。根据标注结果可以从该文本中确定出属于实体的字(即标注不为“O”的字)有:孟(B-PER)、某(I-PER)、2(B-WEI)、斤(I-WEI)、某(B-DRU)、粉(I-DRU)。根据每个字的词界信息,将该文本中属于实体的字进行组合,即可得到实体问题文本对应的实体文本,比如,可以确定该文本中的“孟某”为人名(PER,PERSON)实体,“2斤”为重量(WEI-WEIGHT)实体,“某粉”为有害物(DRU,DRUG)实体。
需要说明的是,在实体提取模型中将实体文本作为输入,目的是为了引入待提取文本中实体的先验信息,从而提升从待提取文本提取实体的准确性,因此,在采用CRF层识别每个字单元的字单元类别时,可以将实体问题文本中问题字单元q1、q2、q3……qm对应的融合后问题特征向量Oq1、Oq2、Oq3……Oqm采用掩码的方式进行屏蔽,即,不对实体问题文本中的问题字单元进行后续的类别识别和实体提取操作。
在一实施例中,实体提取模型可以通过训练得到,以法律裁判文书为例,首先,可以定义法律裁判文书中样本实体对应的类别,比如人名、地名、时间、有害物、以及重量等;其次,根据不同类别的样本实体,可以定义每种类别的样本实体对应的样本实体问题,并将其以文本的方式进行表示,比如,人名所代表的问题可以是:“请找出文中的人名,包括姓跟名字,例如王X明,张X红,也可以是指代词如刘某、许某”。
对于训练样本数据,可以从裁判文书网上获取训练原始语料,并按句对其进行切分,得到多个子文本,将每个子文本作为样本待提取文本,然后,对样本待提取文本采用BIO的标注方式,标注出样本待提取文本中样本实体问题文本对应的样本实体文本,例如:缴(O)、获(O)、可(B-DRUG)、X(I-DRUG)、因(I-DRUG)、10.5(B-WEIGHT)、公(I-WEIGHT)、斤(I-WEIGHT),其中,“可X因”属于有害物实体(DRUG),10.5公斤属于重量实体(WEIGHT)。根据实体的标注结果,对样本待提取文本同样采用BIO的标注方式进行分词,例如,“缴获可X因10.5公斤”可以被切分为“缴获”、“可X因”、“10.5公斤”,那么分词的标注结果就是:缴(B-WORD)获(I--WORD)可(B--WORD)X(I--WORD)因(I--WORD)10.5(B--WORD)公(I--WORD)斤(I--WORD),该分词结果则可以反映出文本“缴获可X因10.5公斤”中每个字的词界信息。
将样本实体问题文本和样本待提取文本作为初始实体提取模型的输入,按照上述步骤102-106等,从样本待提取文本中提取样本实体问题文本对应的预测实体文本,具体的初始实体提取模型的框架可以参考图2b。通过不断地对提取到的预测实体文本、以及样本实体文本(即真实的实体文本)进行收敛,以调整该初始实体提取模型的参数,从而得到训练后的实体提取模型。
一般情况下,为提高实体提取模型对实体进行提取的准确度,需要搜集大量样本对模型进行训练,而对于一些样本量较为不足的文本如法律裁判文书,难以获取充足的样本量对模型进行训练,因此,通过采用机器阅读理解的问题形式,引入实体问题文本作为待提取文本中实体的先验信息,也在一定程度上缓解了样本量不足的问题。
由上可知,本申请实施例可以获取待提取文本、以及用于提取待提取文本中实体所需的实体问题文本;构建实体问题文本中问题字单元的问题词界向量、以及待提取文本中待提取字单元的待提取词界向量;分别对问题词界向量和待提取词界向量进行字特征向量转换,得到问题字单元对应的问题字特征向量、以及待提取字单元对应的待提取字特征向量;基于问题字单元的词界信息和问题字特征向量、待提取字单元的词界信息和待提取字特征向量,生成问题字单元对应的问题词特征向量、待提取字单元对应的待提取词特征向量;分别将问题字特征向量与问题词特征向量进行融合、待提取字特征向量与待提取词特征向量进行融合,得到问题字单元对应的融合后问题特征向量、待提取字单元对应的融合后待提取特征向量;根据融合后问题特征向量和融合后待提取特征向量,从待提取文本中提取实体问题文本对应的实体文本。由于该方案能够引入用于提取待提取文本中实体所需的实体问题文本作为实体的先验信息,并构建了实体问题文本中问题字单元的问题词界向量、待提取文本中待提取字单元的待提取词界向量,然后,基于问题词界向量、待提取词界向量,生成问题字单元对应的问题词特征向量、待提取字单元对应的待提取词特征向量,通过将问题字单元的问题字特征向量与问题词特征向量进行融合、待提取字单元的待提取字特征向量与待提取词特征向量进行融合(即字词信息融合),使得基于融合得到的融合后问题特征向量和融合后待提取特征向量,从待提取文本中进行实体提取的准确度大大提升。
本申请实施例方法,经过实验得到的实验结果较之在本领域中的现有方法(即采用BERT+CRF模型的方法)效果更佳,如表1所示,F1值代表了各个模型的精确率与召回率,F1值越大,则表明采用该模型进行实体提取的效果越佳。以毒品犯罪领域的法律裁判文书数据集NER-DRUG-AWARD为实验样本,几种实体提取模型的实验数据如下:
Figure BDA0002471716050000231
表1
其中,模型②、模型③和模型④是本方案在实验过程中针对模型①进行改进后得到的模型,对比模型①的方法:
(1)模型②不仅利用了字的信息,同时也在词的边界基础上引入了词的信息,并将字词信息进行了融合,因此其F1值相比于模型①提升了2.3%。
(2)模型③采用了机器阅读理解的形式,引入实体的先验信息(即实体问题),使得其F1值相比于模型①提升了4.9%。
(3)本方案采用的模型④,则是将模型②和模型③的方法同时引入,其F1值相比模型①可以提升5.3%。
为便于更好地实施以上方法,本申请实施例还提供了一种实体提取装置,该实体提取装置可以集成在计算机设备,比如服务器或终端等设备中。
例如,如图3a所示,该实体提取装置可以包括获取单元301、构建单元302、转换单元303、生成单元304、融合单元305和提取单元306,如下:
获取单元301,用于获取待提取文本、以及用于提取待提取文本中实体所需的实体问题文本;
构建单元302,用于构建所述实体问题文本中问题字单元的问题词界向量、以及所述待提取文本中待提取字单元的待提取词界向量;
转换单元303,用于分别对所述问题词界向量和所述待提取词界向量进行字特征向量转换,得到所述问题字单元对应的问题字特征向量、以及所述待提取字单元对应的待提取字特征向量;
生成单元304,用于基于所述问题字单元的词界信息和所述问题字特征向量、所述待提取字单元的词界信息和所述待提取字特征向量,生成所述问题字单元对应的问题词特征向量、所述待提取字单元对应的待提取词特征向量;
融合单元305,用于分别将问题字特征向量与问题词特征向量进行融合、待提取字特征向量与待提取词特征向量进行融合,得到问题字单元对应的融合后问题特征向量、待提取字单元对应的融合后待提取特征向量;
提取单元306,用于根据所述融合后问题特征向量和所述融合后待提取特征向量,从所述待提取文本中提取所述实体问题文本对应的实体文本。
在一些实施例中,所述构建单元302,用于:
分别对所述实体问题文本和所述待提取文本进行字单元切分,得到所述实体问题文本的问题字单元、所述待提取文本的待提取字单元;
获取所述问题字单元的词界信息、以及所述待提取字单元的词界信息;
基于问题字单元的词界信息和待提取字单元的词界信息,分别对问题字单元和待提取字单元进行向量表示,得到问题字单元的问题词界向量、待提取字单元的待提取词界向量。
在一些实施例中,参见图3b,所述转换单元303,包括:
获取子单元3031,用于获取所述问题字单元的初始问题特征向量、所述待提取字单元的初始待提取特征向量;
融合子单元3032,用于将所述问题词界向量与所述问题字单元的初始问题特征向量进行融合、所述待提取词界向量与所述待提取字单元的初始待提取特征向量进行融合,得到所述问题字单元对应的融合后问题向量、所述待提取字单元对应的融合后待提取向量;
编码子单元3033,用于分别对所述融合后问题向量和所述融合后待提取向量进行编码,得到所述问题字单元对应的问题字特征向量、以及所述待提取字单元对应的待提取字特征向量。
在一些实施例中,所述获取子单元3031,用于:
在多个特征维度上对所述问题字单元、以及所述待提取字单元进行向量表示,得到所述问题字单元在多个特征维度上的初始问题特征向量、以及所述待提取字单元在多个特征维度上的初始待提取特征向量;
所述融合子单元3032,用于:
将所述问题词界向量与所述问题字单元在多个特征维度上的初始问题特征向量进行融合、所述待提取词界向量与所述待提取字单元在多个特征维度上的初始待提取特征向量进行融合,得到所述问题字单元对应的融合后问题向量、所述待提取字单元对应的融合后待提取向量。
在一些实施例中,所述融合子单元3032,具体用于:
获取每个特征维度上对应的权重;
基于每个特征维度上对应的权重,将所述问题词界向量与所述问题字单元在多个特征维度上的初始问题特征向量进行加权处理、所述待提取词界向量与所述待提取字单元在多个特征维度上的初始待提取特征向量进行加权处理,得到所述问题字单元对应的融合后问题向量、所述待提取字单元对应的融合后待提取向量。
在一些实施例中,所述生成单元304,用于:
基于所述问题字单元的词界信息,将问题字特征向量进行融合,得到所述问题字单元对应的问题词特征向量;
基于所述待提取字单元的词界信息,将待提取字特征向量进行融合,得到所述待提取字单元对应的待提取词特征向量。
在一些实施例中,所述生成单元304,具体用于:
根据所述待提取字单元的词界信息,确定所述待提取文本中待提取字单元的词界范围;
获取所述词界范围内待提取字单元对应的待提取字特征向量;
将所述词界范围内待提取字单元对应的待提取字特征向量进行融合,得到所述待提取字单元对应的待提取词特征向量。
在一些实施例中,参见图3c,所述提取单元306,包括:
识别子单元3061,用于根据所述融合后问题特征向量和所述融合后待提取特征向量,识别所述待提取文本中待提取字单元的字单元类别,所述字单元类别包括:实体字单元类别、非实体字单元类别;
提取子单元3062,用于基于所述待提取文本中待提取字单元的字单元类别,提取所述实体问题文本对应的实体文本。
在一些实施例中,所述提取子单元3062,用于:
从所述待提取字单元中提取字单元类别为实体字单元类别的待提取字单元作为候选字单元;
将所述候选字单元组合成所述实体问题文本对应的实体文本。
在一些实施例中,所述转换单元303,还用于:
采用预设实体提取模型,分别对所述问题词界向量和所述待提取词界向量进行字特征向量转换,得到所述问题字单元对应的问题字特征向量、以及所述待提取字单元对应的待提取字特征向量;
所述生成单元304,还用于:
采用预设实体提取模型,基于所述问题字单元的词界信息和所述问题字特征向量、所述待提取字单元的词界信息和所述待提取字特征向量,生成所述问题字单元对应的问题词特征向量、所述待提取字单元对应的待提取词特征向量。
在一些实施例中,参见图3d,所述实体提取装置还包括训练单元307,用于:
获取样本待提取文本、以及用于提取所述样本待提取文本中样本实体所需的样本实体问题文本;
构建所述样本实体问题文本中样本问题字单元的样本问题词界向量、以及所述样本待提取文本中样本待提取字单元的样本待提取词界向量;
采用实体提取模型,基于所述样本问题字单元的样本词界信息和样本问题词界向量、所述样本待提取字单元的样本词界信息和样本待提取词界向量,生成样本问题字单元对应的样本问题词特征向量、样本待提取字单元对应的样本待提取词特征向量;
采用实体提取模型,分别将所述样本问题字单元的样本问题字特征向量与样本问题词特征向量进行融合、所述样本待提取字单元的样本待提取字特征向量与样本待提取词特征向量进行融合,得到样本问题字单元对应的融合后样本问题特征向量、样本待提取字单元对应的融合后样本待提取特征向量;
采用实体提取模型,根据所述融合后样本问题特征向量和所述融合后样本待提取特征向量,从所述样本待提取文本中提取所述样本实体问题文本对应的预测实体文本;
通过所述预测实体文本、以及所述样本实体问题文本对应的样本实体文本,对所述实体提取模型进行训练,得到预设实体提取模型。
在一些实施例中,所述训练单元307,用于:
获取初始文本;
基于文本的语法结构对所述初始文本进行划分,得到多个子文本;
将各个子文本作为样本待提取文本。
在一些实施例中,所述训练单元307,用于:
对所述样本实体问题文本和所述样本待提取文本进行分词,得到所述样本实体问题文本的样本问题词单元、所述样本待提取文本的样本待提取词单元;
根据样本问题词单元中样本问题字单元之间的关联关系,确定样本问题词单元中样本问题字单元的样本词界信息;
根据样本待提取词单元中样本待提取字单元之间的关联关系,确定样本待提取词单元中样本待提取字单元的样本词界信息。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由上可知,本申请实施例的实体提取装置可以通过获取单元301获取待提取文本、以及用于提取待提取文本中实体所需的实体问题文本;由构建单元302构建实体问题文本中问题字单元的问题词界向量、以及待提取文本中待提取字单元的待提取词界向量;由转换单元303分别对问题词界向量和待提取词界向量进行字特征向量转换,得到问题字单元对应的问题字特征向量、以及待提取字单元对应的待提取字特征向量;由生成单元304基于问题字单元的词界信息和问题字特征向量、待提取字单元的词界信息和待提取字特征向量,生成问题字单元对应的问题词特征向量、待提取字单元对应的待提取词特征向量;由融合单元305分别将问题字特征向量与问题词特征向量进行融合、待提取字特征向量与待提取词特征向量进行融合,得到问题字单元对应的融合后问题特征向量、待提取字单元对应的融合后待提取特征向量;由提取单元306根据融合后问题特征向量和融合后待提取特征向量,从待提取文本中提取实体问题文本对应的实体文本。由于该方案能够引入用于提取待提取文本中实体所需的实体问题文本作为实体的先验信息,并构建了实体问题文本中问题字单元的问题词界向量、待提取文本中待提取字单元的待提取词界向量,然后,基于问题词界向量、待提取词界向量,生成问题字单元对应的问题词特征向量、待提取字单元对应的待提取词特征向量,通过将问题字单元的问题字特征向量与问题词特征向量进行融合、待提取字单元的待提取字特征向量与待提取词特征向量进行融合(即字词信息融合),使得基于融合得到的融合后问题特征向量和融合后待提取特征向量,从待提取文本中进行实体提取的准确度大大提升。
本申请实施例还提供一种计算机设备,如图4所示,其示出了本申请实施例所涉及的计算机设备的结构示意图,具体来讲:
该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图4中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行计算机设备的各种功能和处理数据,从而对计算机设备进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、影像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
计算机设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该计算机设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取待提取文本、以及用于提取待提取文本中实体所需的实体问题文本;构建实体问题文本中问题字单元的问题词界向量、以及待提取文本中待提取字单元的待提取词界向量;分别对问题词界向量和待提取词界向量进行字特征向量转换,得到问题字单元对应的问题字特征向量、以及待提取字单元对应的待提取字特征向量;基于问题字单元的词界信息和问题字特征向量、待提取字单元的词界信息和待提取字特征向量,生成问题字单元对应的问题词特征向量、待提取字单元对应的待提取词特征向量;分别将问题字特征向量与问题词特征向量进行融合、待提取字特征向量与待提取词特征向量进行融合,得到问题字单元对应的融合后问题特征向量、待提取字单元对应的融合后待提取特征向量;根据融合后问题特征向量和融合后待提取特征向量,从待提取文本中提取实体问题文本对应的实体文本。
以上各个操作具体可参见前面的实施例,在此不作赘述。
由上可知,本申请实施例的计算机设备可以获取待提取文本、以及用于提取待提取文本中实体所需的实体问题文本;构建实体问题文本中问题字单元的问题词界向量、以及待提取文本中待提取字单元的待提取词界向量;分别对问题词界向量和待提取词界向量进行字特征向量转换,得到问题字单元对应的问题字特征向量、以及待提取字单元对应的待提取字特征向量;基于问题字单元的词界信息和问题字特征向量、待提取字单元的词界信息和待提取字特征向量,生成问题字单元对应的问题词特征向量、待提取字单元对应的待提取词特征向量;分别将问题字特征向量与问题词特征向量进行融合、待提取字特征向量与待提取词特征向量进行融合,得到问题字单元对应的融合后问题特征向量、待提取字单元对应的融合后待提取特征向量;根据融合后问题特征向量和融合后待提取特征向量,从待提取文本中提取实体问题文本对应的实体文本。由于该方案能够引入用于提取待提取文本中实体所需的实体问题文本作为实体的先验信息,并构建了实体问题文本中问题字单元的问题词界向量、待提取文本中待提取字单元的待提取词界向量,然后,基于问题词界向量、待提取词界向量,生成问题字单元对应的问题词特征向量、待提取字单元对应的待提取词特征向量,通过将问题字单元的问题字特征向量与问题词特征向量进行融合、待提取字单元的待提取字特征向量与待提取词特征向量进行融合(即字词信息融合),使得基于融合得到的融合后问题特征向量和融合后待提取特征向量,从待提取文本中进行实体提取的准确度大大提升。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有计算机程序,该计算机程序能够被处理器进行加载,以执行本申请实施例所提供的任一种实体提取方法中的步骤。例如,该计算机程序可以执行如下步骤:
获取待提取文本、以及用于提取待提取文本中实体所需的实体问题文本;构建实体问题文本中问题字单元的问题词界向量、以及待提取文本中待提取字单元的待提取词界向量;分别对问题词界向量和待提取词界向量进行字特征向量转换,得到问题字单元对应的问题字特征向量、以及待提取字单元对应的待提取字特征向量;基于问题字单元的词界信息和问题字特征向量、待提取字单元的词界信息和待提取字特征向量,生成问题字单元对应的问题词特征向量、待提取字单元对应的待提取词特征向量;分别将问题字特征向量与问题词特征向量进行融合、待提取字特征向量与待提取词特征向量进行融合,得到问题字单元对应的融合后问题特征向量、待提取字单元对应的融合后待提取特征向量;根据融合后问题特征向量和融合后待提取特征向量,从待提取文本中提取实体问题文本对应的实体文本。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的指令,可以执行本申请实施例所提供的任一种实体提取方法中的步骤,因此,可以实现本申请实施例所提供的任一种实体提取方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种实体提取方法、装置、计算机设备和计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (15)

1.一种实体提取方法,其特征在于,包括:
获取待提取文本、以及用于提取待提取文本中实体所需的实体问题文本;
构建所述实体问题文本中问题字单元的问题词界向量、以及所述待提取文本中待提取字单元的待提取词界向量;
分别对所述问题词界向量和所述待提取词界向量进行字特征向量转换,得到所述问题字单元对应的问题字特征向量、以及所述待提取字单元对应的待提取字特征向量;
基于所述问题字单元的词界信息和所述问题字特征向量、所述待提取字单元的词界信息和所述待提取字特征向量,生成所述问题字单元对应的问题词特征向量、所述待提取字单元对应的待提取词特征向量;
分别将问题字特征向量与问题词特征向量进行融合、待提取字特征向量与待提取词特征向量进行融合,得到问题字单元对应的融合后问题特征向量、待提取字单元对应的融合后待提取特征向量;
根据所述融合后问题特征向量和所述融合后待提取特征向量,从所述待提取文本中提取所述实体问题文本对应的实体文本。
2.根据权利要求1所述的方法,其特征在于,所述构建所述实体问题文本中问题字单元的问题词界向量、以及所述待提取文本中待提取字单元的待提取词界向量,包括:
分别对所述实体问题文本和所述待提取文本进行字单元切分,得到所述实体问题文本的问题字单元、所述待提取文本的待提取字单元;
获取所述问题字单元的词界信息、以及所述待提取字单元的词界信息;
基于问题字单元的词界信息和待提取字单元的词界信息,分别对问题字单元和待提取字单元进行向量表示,得到问题字单元的问题词界向量、待提取字单元的待提取词界向量。
3.根据权利要求1所述的方法,其特征在于,所述分别对所述问题词界向量和所述待提取词界向量进行字特征向量转换,得到所述问题字单元对应的问题字特征向量、以及所述待提取字单元对应的待提取字特征向量,包括:
获取所述问题字单元的初始问题特征向量、所述待提取字单元的初始待提取特征向量;
将所述问题词界向量与所述问题字单元的初始问题特征向量进行融合、所述待提取词界向量与所述待提取字单元的初始待提取特征向量进行融合,得到所述问题字单元对应的融合后问题向量、所述待提取字单元对应的融合后待提取向量;
分别对所述融合后问题向量和所述融合后待提取向量进行编码,得到所述问题字单元对应的问题字特征向量、以及所述待提取字单元对应的待提取字特征向量。
4.根据权利要求3所述的方法,其特征在于,所述获取所述问题字单元的初始问题特征向量、所述待提取字单元的初始待提取特征向量,包括:
在多个特征维度上对所述问题字单元、以及所述待提取字单元进行向量表示,得到所述问题字单元在多个特征维度上的初始问题特征向量、以及所述待提取字单元在多个特征维度上的初始待提取特征向量;
将所述问题词界向量与所述问题字单元的初始问题特征向量进行融合、所述待提取词界向量与所述待提取字单元的初始待提取特征向量进行融合,得到所述问题字单元对应的融合后问题向量、所述待提取字单元对应的融合后待提取向量,包括:
将所述问题词界向量与所述问题字单元在多个特征维度上的初始问题特征向量进行融合、所述待提取词界向量与所述待提取字单元在多个特征维度上的初始待提取特征向量进行融合,得到所述问题字单元对应的融合后问题向量、所述待提取字单元对应的融合后待提取向量。
5.根据权利要求4所述的方法,其特征在于,所述将所述问题词界向量与所述问题字单元在多个特征维度上的初始问题特征向量进行融合、所述待提取词界向量与所述待提取字单元在多个特征维度上的初始待提取特征向量进行融合,得到所述问题字单元对应的融合后问题向量、所述待提取字单元对应的融合后待提取向量,包括:
获取每个特征维度上对应的权重;
基于每个特征维度上对应的权重,将所述问题词界向量与所述问题字单元在多个特征维度上的初始问题特征向量进行加权处理、所述待提取词界向量与所述待提取字单元在多个特征维度上的初始待提取特征向量进行加权处理,得到所述问题字单元对应的融合后问题向量、所述待提取字单元对应的融合后待提取向量。
6.根据权利要求1所述的方法,其特征在于,所述基于所述问题字单元的词界信息和所述问题字特征向量、所述待提取字单元的词界信息和所述待提取字特征向量,生成所述问题字单元对应的问题词特征向量、所述待提取字单元对应的待提取词特征向量,包括:
基于所述问题字单元的词界信息,将问题字特征向量进行融合,得到所述问题字单元对应的问题词特征向量;
基于所述待提取字单元的词界信息,将待提取字特征向量进行融合,得到所述待提取字单元对应的待提取词特征向量。
7.根据权利要求6所述的方法,其特征在于,所述基于所述待提取字单元的词界信息,将待提取字特征向量进行融合,得到所述待提取字单元对应的待提取词特征向量,包括:
根据所述待提取字单元的词界信息,确定所述待提取文本中待提取字单元的词界范围;
获取所述词界范围内待提取字单元对应的待提取字特征向量;
将所述词界范围内待提取字单元对应的待提取字特征向量进行融合,得到所述待提取字单元对应的待提取词特征向量。
8.根据权利要求1所述的方法,其特征在于,所述根据所述融合后问题特征向量和所述融合后待提取特征向量,从所述待提取文本中提取所述实体问题文本对应的实体文本,包括:
根据所述融合后问题特征向量和所述融合后待提取特征向量,识别所述待提取文本中待提取字单元的字单元类别,所述字单元类别包括:实体字单元类别、非实体字单元类别;
基于所述待提取文本中待提取字单元的字单元类别,提取所述实体问题文本对应的实体文本。
9.根据权利要求8所述的方法,其特征在于,所述基于所述待提取文本中待提取字单元的字单元类别,提取所述实体问题文本对应的实体文本,包括:
从所述待提取字单元中提取字单元类别为实体字单元类别的待提取字单元作为候选字单元;
将所述候选字单元组合成所述实体问题文本对应的实体文本。
10.根据权利要求1所述的方法,其特征在于,所述分别对所述问题词界向量和所述待提取词界向量进行字特征向量转换,得到所述问题字单元对应的问题字特征向量、以及所述待提取字单元对应的待提取字特征向量,包括:
采用预设实体提取模型,分别对所述问题词界向量和所述待提取词界向量进行字特征向量转换,得到所述问题字单元对应的问题字特征向量、以及所述待提取字单元对应的待提取字特征向量;
基于所述问题字单元的词界信息和所述问题字特征向量、所述待提取字单元的词界信息和所述待提取字特征向量,生成所述问题字单元对应的问题词特征向量、所述待提取字单元对应的待提取词特征向量,包括:
采用预设实体提取模型,基于所述问题字单元的词界信息和所述问题字特征向量、所述待提取字单元的词界信息和所述待提取字特征向量,生成所述问题字单元对应的问题词特征向量、所述待提取字单元对应的待提取词特征向量。
11.根据权利要求10所述的方法,其特征在于,所述方法还包括:
获取样本待提取文本、以及用于提取所述样本待提取文本中样本实体所需的样本实体问题文本;
构建所述样本实体问题文本中样本问题字单元的样本问题词界向量、以及所述样本待提取文本中样本待提取字单元的样本待提取词界向量;
采用实体提取模型,基于所述样本问题字单元的样本词界信息和样本问题词界向量、所述样本待提取字单元的样本词界信息和样本待提取词界向量,生成样本问题字单元对应的样本问题词特征向量、样本待提取字单元对应的样本待提取词特征向量;
采用实体提取模型,分别将所述样本问题字单元的样本问题字特征向量与样本问题词特征向量进行融合、所述样本待提取字单元的样本待提取字特征向量与样本待提取词特征向量进行融合,得到样本问题字单元对应的融合后样本问题特征向量、样本待提取字单元对应的融合后样本待提取特征向量;
采用实体提取模型,根据所述融合后样本问题特征向量和所述融合后样本待提取特征向量,从所述样本待提取文本中提取所述样本实体问题文本对应的预测实体文本;
通过所述预测实体文本、以及所述样本实体问题文本对应的样本实体文本,对所述实体提取模型进行训练,得到预设实体提取模型。
12.根据权利要求11所述的方法,其特征在于,所述获取样本待提取文本,包括:
获取初始文本;
基于文本的语法结构对所述初始文本进行划分,得到多个子文本;
将各个子文本作为样本待提取文本。
13.根据权利要求11所述的方法,其特征在于,所述方法还包括:
对所述样本实体问题文本和所述样本待提取文本进行分词,得到所述样本实体问题文本的样本问题词单元、所述样本待提取文本的样本待提取词单元;
根据样本问题词单元中样本问题字单元之间的关联关系,确定样本问题词单元中样本问题字单元的样本词界信息;
根据样本待提取词单元中样本待提取字单元之间的关联关系,确定样本待提取词单元中样本待提取字单元的样本词界信息。
14.一种实体提取装置,其特征在于,包括:
获取单元,用于获取待提取文本、以及用于提取待提取文本中实体所需的实体问题文本;
构建单元,用于构建所述实体问题文本中问题字单元的问题词界向量、以及所述待提取文本中待提取字单元的待提取词界向量;
转换单元,用于分别对所述问题词界向量和所述待提取词界向量进行字特征向量转换,得到所述问题字单元对应的问题字特征向量、以及所述待提取字单元对应的待提取字特征向量;
生成单元,用于基于所述问题字单元的词界信息和所述问题字特征向量、所述待提取字单元的词界信息和所述待提取字特征向量,生成所述问题字单元对应的问题词特征向量、所述待提取字单元对应的待提取词特征向量;
融合单元,用于分别将问题字特征向量与问题词特征向量进行融合、待提取字特征向量与待提取词特征向量进行融合,得到问题字单元对应的融合后问题特征向量、待提取字单元对应的融合后待提取特征向量;
提取单元,用于根据所述融合后问题特征向量和所述融合后待提取特征向量,从所述待提取文本中提取所述实体问题文本对应的实体文本。
15.一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1-13任一项所述方法的步骤。
CN202010350669.9A 2020-04-28 2020-04-28 一种实体提取方法、装置及可读存储介质 Active CN111552819B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010350669.9A CN111552819B (zh) 2020-04-28 2020-04-28 一种实体提取方法、装置及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010350669.9A CN111552819B (zh) 2020-04-28 2020-04-28 一种实体提取方法、装置及可读存储介质

Publications (2)

Publication Number Publication Date
CN111552819A CN111552819A (zh) 2020-08-18
CN111552819B true CN111552819B (zh) 2022-07-15

Family

ID=72001661

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010350669.9A Active CN111552819B (zh) 2020-04-28 2020-04-28 一种实体提取方法、装置及可读存储介质

Country Status (1)

Country Link
CN (1) CN111552819B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112669928B (zh) * 2021-01-06 2023-01-10 腾讯科技(深圳)有限公司 结构化信息构建方法、装置、计算机设备及存储介质
CN112906367B (zh) * 2021-02-08 2024-10-18 上海宏原信息科技有限公司 消费者文本的信息提取结构,标注方法和识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033305A (zh) * 2018-07-16 2018-12-18 深圳前海微众银行股份有限公司 问题回答方法、设备及计算机可读存储介质
CN110162749A (zh) * 2018-10-22 2019-08-23 哈尔滨工业大学(深圳) 信息提取方法、装置、计算机设备及计算机可读存储介质
CN110705302A (zh) * 2019-10-11 2020-01-17 掌阅科技股份有限公司 命名实体的识别方法、电子设备及计算机存储介质
CN110727779A (zh) * 2019-10-16 2020-01-24 信雅达系统工程股份有限公司 基于多模型融合的问答方法及系统
CN111062217A (zh) * 2019-12-19 2020-04-24 江苏满运软件科技有限公司 语言信息的处理方法、装置、存储介质及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10832145B2 (en) * 2015-10-05 2020-11-10 International Business Machines Corporation Techniques for resolving entities in received questions

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033305A (zh) * 2018-07-16 2018-12-18 深圳前海微众银行股份有限公司 问题回答方法、设备及计算机可读存储介质
CN110162749A (zh) * 2018-10-22 2019-08-23 哈尔滨工业大学(深圳) 信息提取方法、装置、计算机设备及计算机可读存储介质
CN110705302A (zh) * 2019-10-11 2020-01-17 掌阅科技股份有限公司 命名实体的识别方法、电子设备及计算机存储介质
CN110727779A (zh) * 2019-10-16 2020-01-24 信雅达系统工程股份有限公司 基于多模型融合的问答方法及系统
CN111062217A (zh) * 2019-12-19 2020-04-24 江苏满运软件科技有限公司 语言信息的处理方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN111552819A (zh) 2020-08-18

Similar Documents

Publication Publication Date Title
CN108984683B (zh) 结构化数据的提取方法、系统、设备及存储介质
CN112015859B (zh) 文本的知识层次抽取方法及装置、计算机设备及可读介质
WO2021121198A1 (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
WO2019100319A1 (en) Providing a response in a session
CN113127624B (zh) 问答模型的训练方法及装置
CN107577662A (zh) 面向中文文本的语义理解系统及方法
CN113704460B (zh) 一种文本分类方法、装置、电子设备和存储介质
CN113095080B (zh) 基于主题的语义识别方法、装置、电子设备和存储介质
Pattyam AI-Enhanced Natural Language Processing: Techniques for Automated Text Analysis, Sentiment Detection, and Conversational Agents
CN111552819B (zh) 一种实体提取方法、装置及可读存储介质
CN111597341B (zh) 一种文档级关系抽取方法、装置、设备及存储介质
CN110781273A (zh) 文本数据处理方法、装置、电子设备及存储介质
CN112463942A (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN117876940B (zh) 视频语言任务执行及其模型训练方法、装置、设备、介质
CN112699686A (zh) 基于任务型对话系统的语义理解方法、装置、设备及介质
CN110852047A (zh) 一种文本配乐方法、装置、以及计算机存储介质
CN110019952A (zh) 视频描述方法、系统及装置
Yuan et al. MCIC: multimodal conversational intent classification for E-commerce customer service
WO2024098763A1 (zh) 文本操作图互检方法及模型训练方法、装置、设备、介质
CN110309355A (zh) 内容标签的生成方法、装置、设备及存储介质
CN115017271B (zh) 用于智能生成rpa流程组件块的方法及系统
Weng et al. A survey of artificial intelligence techniques on MOOC of legal education
Liang et al. Hierarchical hybrid code networks for task-oriented dialogue
Vardag et al. Contextual Urdu text emotion detection corpus and experiments using deep learning approaches
Islam et al. Bengali caption generation for images using deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant