CN112860855A - 一种信息抽取方法、装置及电子设备 - Google Patents

一种信息抽取方法、装置及电子设备 Download PDF

Info

Publication number
CN112860855A
CN112860855A CN202110159013.3A CN202110159013A CN112860855A CN 112860855 A CN112860855 A CN 112860855A CN 202110159013 A CN202110159013 A CN 202110159013A CN 112860855 A CN112860855 A CN 112860855A
Authority
CN
China
Prior art keywords
text
extracted
semantic vector
position information
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110159013.3A
Other languages
English (en)
Other versions
CN112860855B (zh
Inventor
朱婷
肖楠
顾松庠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JD Digital Technology Holdings Co Ltd
Original Assignee
JD Digital Technology Holdings Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JD Digital Technology Holdings Co Ltd filed Critical JD Digital Technology Holdings Co Ltd
Priority to CN202110159013.3A priority Critical patent/CN112860855B/zh
Publication of CN112860855A publication Critical patent/CN112860855A/zh
Application granted granted Critical
Publication of CN112860855B publication Critical patent/CN112860855B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/387Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Library & Information Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种信息抽取方法、装置及电子设备。该方法包括:获取待抽取文本的语义向量,并基于语义向量,预测待抽取文本中的主体元素,以及主体元素的第一位置信息;基于主体元素的第一位置信息,从语义向量中获取主体元素的第一语义向量;基于主体元素的第一语义向量和语义向量,预测待抽取文本中的对象元素,以及对象元素的第二位置信息;根据第一位置信息和第二位置信息,从待抽取文本的抽取文本片段,以生成待抽取文本的结构化信息。由此,本申请根据第一位置信息和第二位置信息,能够自动地对信息进行抽取,无需人工干预,节省了人工成本,缩短了抽取耗时,确保了信息抽取结果的准确性,提高了信息抽取过程中的效率、准确性和可靠性。

Description

一种信息抽取方法、装置及电子设备
技术领域
本申请涉及数据处理技术领域,尤其涉及一种信息抽取方法、装置及电子设备。
背景技术
近年来,随着互联网数据爆炸性的增长,随之而来,各种资源也以指数形式迅速增长。特别地,针对投资研究等领域,更是拥有海量数据。此种情况下,投研人员需要从海量信息中获得相关因子来辅助进行分析和预判。
然而,相关技术中的信息抽取方法,往往依赖人工进行抽取,这样一来,势必导致信息抽取过程中存在效率低、准确性低、可靠性差的技术问题。因此,如何提高信息抽取过程中的效率和准确性,已成为了重要的研究方向之一。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种信息抽取方法,用于解决相关信息抽取方法过程中存在的效率低、准确性低、可靠性差的技术问题。
本发明的第二个目的在于提出另一种信息抽取装置。
本发明的第三个目的在于提出一种电子设备。
本发明的第四个目的在于提出一种计算机可读存储介质。
为了实现上述目的,本申请第一方面实施例提供了一种信息抽取方法,所述方法包括以下步骤:获取待抽取文本的语义向量,并基于所述语义向量,预测所述待抽取文本中的主体元素,以及所述主体元素的第一位置信息;基于所述主体元素的第一位置信息,从所述语义向量中获取所述主体元素的第一语义向量;基于所述主体元素的第一语义向量和所述语义向量,预测所述待抽取文本中的对象元素,以及所述对象元素的第二位置信息;根据所述第一位置信息和所述第二位置信息,从所述待抽取文本的抽取文本片段,以生成所述待抽取文本的结构化信息。
本申请第一方面实施例提供了信息抽取方法,可以通过获取待抽取文本的语义向量,并基于语义向量,预测待抽取文本中的主体元素,以及主体元素的第一位置信息,然后基于主体元素的第一位置信息,从语义向量中获取主体元素的第一语义向量,并基于主体元素的第一语义向量和语义向量,预测待抽取文本中的对象元素,以及对象元素的第二位置信息,进而根据第一位置信息和第二位置信息,从待抽取文本的抽取文本片段,以生成待抽取文本的结构化信息,以实现信息抽取,使得根据第一位置信息和第二位置信息,能够自动、精确地对信息进行抽取,无需人工干预,节省了人工成本,缩短了抽取耗时,确保了信息抽取结果的准确性,提高了信息抽取过程中的效率、准确性和可靠性。
为了实现上述目的,本申请第二方面实施例提供了一种信息抽取装置,所述装置包括:第一预测模块,用于获取待抽取文本的语义向量,并基于所述语义向量,预测所述待抽取文本中的主体元素,以及所述主体元素的第一位置信息;获取模块,用于基于所述主体元素的第一位置信息,从所述语义向量中获取所述主体元素的第一语义向量;第二预测模块,用于基于所述主体元素的第一语义向量和所述语义向量,预测所述待抽取文本中的对象元素,以及所述对象元素的第二位置信息;生成模块,用于根据所述第一位置信息和所述第二位置信息,从所述待抽取文本的抽取文本片段,以生成所述待抽取文本的结构化信息。
本申请第二方面实施例提供了信息抽取装置,可以通过获取待抽取文本的语义向量,并基于语义向量,预测待抽取文本中的主体元素,以及主体元素的第一位置信息,然后基于主体元素的第一位置信息,从语义向量中获取主体元素的第一语义向量,并基于主体元素的第一语义向量和语义向量,预测待抽取文本中的对象元素,以及对象元素的第二位置信息,进而根据第一位置信息和第二位置信息,从待抽取文本的抽取文本片段,以生成待抽取文本的结构化信息,以实现信息抽取,使得根据第一位置信息和第二位置信息,能够自动、精确地对信息进行抽取,无需人工干预,节省了人工成本,缩短了抽取耗时,确保了信息抽取结果的准确性,提高了信息抽取过程中的效率、准确性和可靠性。
为了实现上述目的,本申请第三方面实施例提供了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时,实现如本申请第一方面实施例中任一项所述的信息抽取方法。
为了实现上述目的,本申请第四方面实施例提供了一种计算机可读存储介质,该程序被处理器执行时实现如本申请第一方面实施例中任一项所述的信息抽取方法。
附图说明
图1为本申请一个实施例公开的信息抽取方法的流程示意图;
图2为本申请一个实施例公开的一种BERT模型的示意图;
图3为本申请另一个实施例公开的信息抽取方法的流程示意图;
图4为本申请另一个实施例公开的信息抽取方法的流程示意图;
图5为本申请另一个实施例公开的信息抽取方法的流程示意图;
图6为本申请一个实施例公开的一种Layer Normalization的示意图;
图7为本申请一个实施例公开的一种第一位置信息的示意图;
图8为本申请另一个实施例公开的信息抽取方法的流程示意图;
图9为本申请另一个实施例公开的信息抽取方法的流程示意图;
图10为本申请一个实施例公开的一种第二位置信息的示意图;
图11为本申请另一个实施例公开的信息抽取方法的流程示意图;
图12为本申请一个实施例公开的一种补全异常文本片段的流程示意图;
图13为本申请另一个实施例公开的信息抽取方法的流程示意图;
图14为本申请一个实施例公开的信息抽取装置的结构示意图;
图15为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为了更好的理解上述技术方案,下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
应当理解,本申请实施例中涉及的“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。
下面参照附图描述根据本申请实施例提出的一种信息抽取方法、装置及电子设备。
图1为本申请一个实施例公开的一种信息抽取方法的流程示意图。
如图1所示,本申请实施例提出的信息抽取方法,具体包括以下步骤:
S101、获取待抽取文本的语义向量,并基于语义向量,预测待抽取文本中的主体元素,以及主体元素的第一位置信息。
需要说明的是,本申请中,可以通过多种方式获取待抽取文本。例如,可以通过爬取文娱网站、经济网站等网站的网页信息和附件信息的方式,获取文本。进一步地,可以根据获取到的文本,将任一文本作为待抽取文本。
其中,待抽取文本可以为多种格式,例如HTML(HyperText Mark-up Language,超文本标记语言)格式、Doc(Document,文档)格式、PDF(Portable Document Format,可携带文档)格式等。
需要说明的是,本申请中,对于获取待抽取文本的语义向量的具体方式不作限定,可以根据实际情况进行选取。
可选地,可以基于BERT(Bidirectional Encoder Representations fromTransformers,基于变换器的双向编码器表征量)模型,获取待抽取文本的语义向量。
举例而言,如图2所示,BERT模型可以通过查询字向量表,将待抽取文本中的每个字转换为一维向量,作为模型的输入。此种情况下,BERT模型的输出则是输入的每个字对应的融合全文语义信息后的向量表示,即待抽取文本的语义向量。
需要说明的是,BERT模型的输入,可以包括:字向量、文本向量和位置向量。其中,针对文本向量,其取值在BERT模型的训练过程中自动学习,用于刻画文本的全局语义信息,并与单字/词的语义信息相融合;针对位置向量,由于出现在文本不同位置的字/词所携带的语义信息存在差异(比如:“本公司收购A公司80%的股份”和“A公司收购本公司80%的股份”),因此,BERT模型对不同位置的字/词分别附加一个不同的向量以作区分。
进一步地,可以在获取到待抽取文本的语义向量后,通过分类器(Classifier),对待抽取文本中的主体元素,以及主体元素的第一位置信息进行预测。
其中,主体元素的第一位置信息,可以为包括首、尾位置的信息。
其中,主体元素,可以根据实际情况进行设定,例如,为了能够更加详细、清晰地判断某一描述事件的正负项,可以设定主体元素为被描述主体在描述事项上的描述值。
针对投资研究应用场景,为了使投研人员快速、准确地通过对数据进行分析和预判,以得到有价值的信息,需要从海量信息中获得相关元素来进行辅助。
举例而言,以海量信息中的以下两句信息作为待抽取文本为例:“预计2018年公司全年订单数量大增,全年业绩将继续呈现高增长”,以及“张三李四公司作为行业龙头,规模优势和性价比将进一步提升”。通过分析待抽取文本,可以得到如表1所示的多个元素:
表1
Figure BDA0002934920160000041
通过分类器可以对待抽取文本中的主体元素,以及主体元素的第一位置信息进行预测。此种情况下,针对前述两个待抽取文本,主体元素分别为对应的描述值。
S102、基于主体元素的第一位置信息,从语义向量中获取主体元素的第一语义向量。
本申请实施例中,在获取到主体元素的第一位置信息后,可以根据首、尾位置,从待抽取文本对应的多个语义向量中,获取主体元素的第一语义向量。
S103、基于主体元素的第一语义向量和语义向量,预测待抽取文本中的对象元素,以及对象元素的第二位置信息。
可选地,可以在获取到主体元素的第一语义向量和语义向量后,通过分类器,对待抽取文本中的对象元素,以及对象元素的第二位置信息进行预测。
其中,对象元素,可以根据实际情况进行设定,例如,可以设定对象元素为描述主体、描述事项和时间。
针对投资研究应用场景,以表1中所示信息为例,通过分类器可以对待抽取文本中的对象元素,以及对象元素的第二位置信息进行预测。此种情况下,针对前述两个待抽取文本,对象元素分别为对应的描述主体、描述事项和时间。
S104、根据第一位置信息和第二位置信息,从待抽取文本的抽取文本片段,以生成待抽取文本的结构化信息。
本申请实施例中,可以根据第一位置信息和第二位置信息,从待抽取文本中分别抽取对应的文本片段,以生成待抽取文本的结构化信息。
作为一种可能的实现方式,如图3所示,在上述步骤的基础上,上述步骤S104中根据第一位置信息和第二位置信息,从待抽取文本的抽取文本片段,以生成待抽取文本的结构化信息的具体过程,包括以下步骤:
S301、基于第一位置信息,从第一位置上抽取主体元素对应的第一文本片段。
需要说明的是,由于第一位置信息包括主体元素的首、尾位置的信息,因此,可以将主体元素的首至尾位置的文本组成的片段作为第一文本片段,并进行抽取。
举例而言,主体元素的首至尾位置的文本分别为“完、善”,此种情况下,可以抽取第一文本片段“完善”。
S302、基于第二位置信息,从第二位置上抽取对象元素对应的第二文本片段。
需要说明的是,由于第二位置信息包括对象元素的首、尾位置的信息,因此,可以将对象元素的首至尾位置的文本组成的片段作为第二文本片段,并进行抽取。
举例而言,对象元素的首至尾位置的文本分别为“张、三、李、四、公、司”和“知、识、产、权、成、果”,此种情况下,可以抽取第二文本片段分别为“张三李四公司”和“知识产权成果”。
S303、基于第一文本片段和第二文本片段,生成待抽取文本的结构化信息。
需要说明的是,本申请中对于基于第一文本片段和第二文本片段,生成待抽取文本的结构化信息的具体方式不作限定,可以根据实际情况进行选取。可选地,可以基于第一文本片段和第二文本片段的相对位置,对第一文本片段和第二文本片段进行拼接,以生成待抽取文本的结构化信息。
由此,本申请提出的信息抽取方法,可以通过获取待抽取文本的语义向量,并基于语义向量,预测待抽取文本中的主体元素,以及主体元素的第一位置信息,然后基于主体元素的第一位置信息,从语义向量中获取主体元素的第一语义向量,并基于主体元素的第一语义向量和语义向量,预测待抽取文本中的对象元素,以及对象元素的第二位置信息,进而根据第一位置信息和第二位置信息,从待抽取文本的抽取文本片段,以生成待抽取文本的结构化信息,以实现信息抽取,使得根据第一位置信息和第二位置信息,能够自动、精确地对信息进行抽取,无需人工干预,节省了人工成本,缩短了抽取耗时,确保了信息抽取结果的准确性,提高了信息抽取过程中的效率、准确性和可靠性。
需要说明的是,本申请中,在试图预测主体元素及其第一位置信息以及对象元素及其第二位置信息时,可以基于不同种类的分类器,对待识别文本中的每个字符的识别概率进行获取。
作为一种可能的实现方式,如图4所示,该信息抽取方法,具体包括以下步骤:
S401、获取待抽取文本的语义向量。
S402、将语义向量输入第一分类器中,由第一分类器对待抽取文本进行主体元素的识别,获取待识别文本中每个字符的第一识别概率。
需要说明的是,本申请中,在试图将语义向量输入第一分类器中之前,可以基于第一归一化层,进行归一化处理,以生成语义向量对应的归一化语义向量。可选地,可以采用Layer Normalization(层归一化)的方式进行归一化处理。
作为一种可能的实现方式,如图5所示,具体包括以下步骤:
S501、将语义向量输入第一归一化层,由第一归一化层在设定维度上对语义向量进行划分,形成多个第一语义向量。
S502、获取每个第一语义向量的均值和方差,并基于第一语义向量的均值和方差进行归一化处理,以生成语义向量对应的归一化语义向量。
本申请实施例中,可以将语义向量经过Layer Normalization进行归一化处理,对于每一个样本计算其均值的均值和方差,将输入的语义向量转化成均值为0、方差为1的序列。
需要说明的是,区别于批归一化(Batch Normalization)、实例正则化(InstanceNormalization)、群组归一化(Group Normalization)等归一化处理方式,LayerNormalization基于以下公式进行归一化处理:
Figure BDA0002934920160000061
其中,β和α仅由梯度下降(Gradient Descent)的迭代方式得到,不依赖于输入,是无条件的归一化处理方式。
需要说明的是,设定维度,可以用以确定划分的面,其中,面可以由N(Number,数量)、C(Channel,通道)、H(Height,高度)、W(Weight,宽度)等多维度构成。举例而言,如图6所示,H、W可以合成为一个维度,C和N各占一个维度,此种情况下,以此面为参考,进行划分,可以形成每个样本,进而每个样本则对应一个第一语义向量。
S403、识别出第一识别概率大于第一预设概率的第一连续字符组作为主体元素。
其中,第一预设概率,可以根据实际情况进行设定。例如,可以设定第一预设概率为0.6。
可选地,可以将第一识别概率与第一预设概率进行比较,并在识别第一识别概率大于第一预设概率时,将第一识别概率大于第一预设概率的第一连续字符组作为主体元素。
举例而言,针对待抽取文本“张三李四公司形成了完善的知识产权成果。”,其中,每个字符的第一识别概率分别为:0.3、0.3、0.4、0.6、0.28、0.28、0.2、0.6、0.15、0.65、0.7、0.15、0.3、0.3、0.4、0.3、0.3、0.35,且第一预设概率为0.6,此种情况下,可以将第一连续字符组“完善”作为主体元素。
需要说明的是,尽管字符“成”对应的第一识别概率大于第一预设概率,然而,前述字符为非连续字符组,因此可以丢弃该结果,仅将“完善”作为主体元素。
S404、根据第一连续字符组中首字符所在位置和结尾字符所在位置,确定主体元素的第一位置信息。
可选地,可以使用sigmoid函数(又称S型生长曲线)作为激活函数,预测出第一连续字符组中首字符所在位置和结尾字符所在位置。进一步地,可以根据第一连续字符组中首字符所在位置和结尾字符所在位置,确定主体元素的第一位置信息。
举例而言,如图7所示,第一连续字符组为“完”和“善”,此种情况下,可以使用sigmoid函数作为激活函数,预测出第一连续字符组中首字符所在位置为7-1、结尾字符所在位置为7-2,这样一来,可以确定主体元素的第一位置信息为7-1~7-2。
S405、基于主体元素的第一位置信息,从语义向量中获取主体元素的第一语义向量。
可选地,可以基于主体元素的第一位置信息,从多个第一语义向量中,获取主体元素的第一语义向量。
S406、基于主体元素的第一语义向量和语义向量,预测待抽取文本中的对象元素,以及对象元素的第二位置信息。
作为一种可能的实现方式,如图8所示,具体包括以下步骤:
S801、将第一语义向量和语义向量输入第二分类器中,由第二分类器对待抽取文本进行对象元素的识别,获取待识别文本中每个字符的第二识别概率。
需要说明的是,本申请中,在试图将第一语义向量和语义向量输入第二分类器中之前,可以基于第二归一化层,进行归一化处理,以生成语义向量对应的条件归一化语义向量。可选地,可以采用Conditional Layer Normalization(条件层归一化)的方式进行归一化处理。
作为一种可能的实现方式,如图9所示,具体包括以下步骤:
S901、以获取的主体元素的第一语义向量为条件,对第一语义向量进行矩阵变换,更新第二归一化层的模型参数。
S902、由更新的条件归一化层对语义向量进行归一化处理,生成语义向量对应的条件归一化语义向量。
可选地,可以随机采样一个待抽取文本,以第一语义向量作为条件,通过两个不同的变换矩阵,将输入条件变换到与β和α一致的维度,然后将两个变换结果分别加到β和α上,并将第一语义向量使用变换后的β和α进行Layer normalization,即进行ConditionalLayer Normalization。
其中,β和α为第二归一化层的模型参数。
需要说明的是,区别于Layer Normalization,Conditional LayerNormalization中的参数β和α并非仅由梯度下降学习得到,而是同时需要依赖于输入,是有条件的归一化处理方式。
S802、识别出第二识别概率大于第二预设概率的第二连续字符组作为对象元素。
其中,第二预设概率,可以根据实际情况进行设定。例如,可以设定第二预设概率为0.25。
可选地,可以将第二识别概率与第二预设概率进行比较,并在识别第二识别概率大于第二预设概率时,将第二识别概率大于第二预设概率的第二连续字符组作为对象元素。
举例而言,针对待抽取文本“张三李四公司形成了完善的知识产权成果。”,其中,每个字符的第二识别概率分别为:0.3、0.3、0.4、0.6、0.28、0.28、0.2、0.6、0.15、0.15、0.2、0.15、0.3、0.3、0.4、0.3、0.3、0.35,且第二预设概率为0.25,此种情况下,可以将第二连续字符组“张三李四公司”和“知识产权成果”作为对象元素。
需要说明的是,尽管字符“成”对应的第二识别概率大于第二预设概率,然而,前述字符为非连续字符组,因此可以丢弃该结果,仅将“张三李四公司”和“知识产权成果”作为对象元素。
S803、根据第二连续字符组中首字符所在位置和结尾字符所在位置,确定对象元素的第二位置信息。
可选地,可以通过使用动态阈值的方式来根据第二连续字符组中首字符所在位置和结尾字符所在位置,确定对象元素的第二位置信息。
举例而言,如图10所示,第二连续字符组为“张三李四公司”以及“知识产权成果”,此种情况下,可以确定对象元素的第二置信息分别为10-1~10-2以及10-3~10-4。
S407、根据第一位置信息和第二位置信息,从待抽取文本的抽取文本片段,以生成待抽取文本的结构化信息。
需要说明的是,本申请中,在试图基于文本片段生成待抽取文本的结构化信息之前,可以针对基于第二位置信息提出到的文本片段异常情况,进行补全,以改善多组因子抽取混淆(Mismatch)等问题。
作为一种可能的实现方式,如图11所示,具体包括以下步骤:
S1101、响应于基于第二位置信息提取出的文本片段异常,获取待抽取文本的关联文本。
以基于第二位置信息提取出的文本片段异常为缺少时间的情况为例,可以响应于基于第二位置信息提取出的文本片段异常,获取待抽取文本的关联文本。
S1102、将关联文本输入命名实体识别模型中,通过命名实体识别模型,从关联文本中提取实体,并识别实体的实体类型。
本申请实施例中,可以将大量标注过的数据,使用Roberta(a RobustlyOptimized BERT Pretraining Approach)获得字符级的向量表示(Embedding)作为Bi-LSTM的输入,然后使用双向长短期记忆网络(Bi-directional Long Short-Term Memory,简称Bi-LSTM)对句子进行编码,Bi-LSTM的输出进全连接层,得到句子中每个字的预测标签的分数,再将该分数输入条件随机场(Conditional Random Fields,简称CRF)中学习句子的约束,经过最大似然估计计算损失函数,以及基于维比特(Viterbi)算法,将类别序列中分数最高的类别作为预测的最终结果。
S1103、获取与异常对象元素的实例类型一致目标实体,并将目标实体对应的文本片段确定为异常对象元素对应的文本片段,其中,异常对象元素为提取出异常的文本片段对应的对象元素。
以基于第二位置信息提取出的文本片段异常为缺少时间的情况为例,可以在预测的实体中有时间时,则进行补全。
举例而言,如图12所示,以基于第二位置信息提取出的文本片段异常为缺少时间的情况为例,响应于基于第二位置信息提取出的文本片段异常,获取待抽取文本的关联文本为12-1,此种情况下,可以将关联文本12-1输入预先训练好的命名实体识别模型中,经过Bi-LSTM层对句子进行编码,得到每个字的预测标签的分数,再将该分数输入CRF层中学习句子的约束,进一步地,可以将类别序列中分数最高的类别作为预测的最终结果12-2。
由此,本申请提出的信息抽取方法,可以通过对第一位置信息和第二位置信息进行预测,同时辅之以命名实体识别模型,构建出从数据源到文本片段异常情况的补全的全自动化的信息抽取方法,进一步缩短了抽取耗时,确保了信息抽取结果的准确性。
图13为本申请一个实施例公开的另一种信息抽取方法的流程示意图。
如图13所示,本申请实施例提出的信息抽取方法,具体包括以下步骤:
S1301、获取待抽取文本的语义向量。
S1302、将语义向量输入第一归一化层,由第一归一化层在设定维度上对语义向量进行划分,形成多个第一语义向量。
S1303、获取每个第一语义向量的均值和方差,并基于第一语义向量的均值和方差进行归一化处理,以生成语义向量对应的归一化语义向量。
S1304、识别出第一识别概率大于第一预设概率的第一连续字符组作为主体元素。
S1305、根据第一连续字符组中首字符所在位置和结尾字符所在位置,确定主体元素的第一位置信息。
S1306、基于主体元素的第一位置信息,从语义向量中获取主体元素的第一语义向量。
S1307、以获取的主体元素的第一语义向量为条件,对第一语义向量进行矩阵变换,更新第二归一化层的模型参数。
S1308、由更新的条件归一化层对语义向量进行归一化处理,生成语义向量对应的条件归一化语义向量。
S1309、识别出第二识别概率大于第二预设概率的第二连续字符组作为对象元素。
S1310、根据第二连续字符组中首字符所在位置和结尾字符所在位置,确定对象元素的第二位置信息。
S1311、基于第一位置信息,从第一位置上抽取主体元素对应的第一文本片段。
S1312、基于第二位置信息,从第二位置上抽取对象元素对应的第二文本片段。
S1314、响应于基于第二位置信息提取出的文本片段异常,获取待抽取文本的关联文本。
S1315、将关联文本输入命名实体识别模型中,通过命名实体识别模型,从关联文本中提取实体,并识别实体的实体类型。
S1316、获取与异常对象元素的实例类型一致目标实体,并将目标实体对应的文本片段确定为异常对象元素对应的文本片段,其中,异常对象元素为提取出异常的文本片段对应的对象元素。
S1317、基于第一文本片段和第二文本片段,生成待抽取文本的结构化信息。
由此,本申请中,可以采用end2end(端到端)的方式,并采用SPO(subject-p-object,主体元素-关系类型-客体元素)三元组的形式,借助条件概率P(s,p,o)=P(s)P(o|s)P(p|s,o),简化为先预测出subject,再根据subject来预测出对应的object和p。也就是说,将描述值定义为subject,即主体元素,其余属性(包括描述主体、描述对象、时间)定义为object,即对象元素,这样一来,能够解决一个subject对应多个object、多个subject对应于多个object的问题,具有良好的泛化性,同时缓解了误差积累。
进一步地,可以将subject中Bert层的输出作为第一归一层的输入,实现共享编码层,建立起subject和object的内部联系。
进一步地,通过使用指针的方式,即获取首字符所在位置和结尾字符所在位置,使得描述值能够更加详细,解决了描述值仅可以为一个实体的的问题
进一步地,通过采用sigmoid激活函数,同时使用指针的方式,为每一类object创建一个长度为句子长度的开始索引start_index和终止索引end_index的概率向量,然后通过设定阈值找出该类型可能存在的所有object的起始位置;通过该方式不仅实现了一对多的抽取,还能解决不同类型object之间的重叠问题(即overlap)。
进一步地,可以根据得到的起始和终止位置向量,针对实际任务场景设计出多策略的解码方式,有效提高解码的准确率。
进一步地,可以使用Conditional Layer Normalization,改善多组因子抽取混淆的问题。
基于同一申请构思,本申请实施例还提供了一种信息抽取方法对应的装置。
图14为本申请实施例提供的信息抽取装置的结构示意图。
如图14所示,该信息抽取装置1000,包括:第一预测模块110、获取模块120、第二预测模块130和生成模块140。其中,
第一预测模块110,用于获取待抽取文本的语义向量,并基于所述语义向量,预测所述待抽取文本中的主体元素,以及所述主体元素的第一位置信息;
获取模块120,用于基于所述主体元素的第一位置信息,从所述语义向量中获取所述主体元素的第一语义向量;
第二预测模块130,用于基于所述主体元素的第一语义向量和所述语义向量,预测所述待抽取文本中的对象元素,以及所述对象元素的第二位置信息;
生成模块140,用于根据所述第一位置信息和所述第二位置信息,从所述待抽取文本的抽取文本片段,以生成所述待抽取文本的结构化信息。
根据本申请的一个实施例,生成模块140,还用于:
基于所述第一位置信息,从所述第一位置上抽取所述主体元素对应的第一文本片段;
基于所述第二位置信息,从所述第二位置上抽取所述对象元素对应的第二文本片段;
基于所述第一文本片段和所述第二文本片段,生成所述待抽取文本的结构化信息。
根据本申请的一个实施例,第一预测模块110,还用于:
将所述语义向量输入第一分类器中,由所述第一分类器对所述待抽取文本进行主体元素的识别,获取所述待识别文本中每个字符的第一识别概率;
识别出所述第一识别概率大于第一预设概率的第一连续字符组作为所述主体元素;
根据所述第一连续字符组中首字符所在位置和结尾字符所在位置,确定所述主体元素的第一位置信息。
根据本申请的一个实施例,第一预测模块110,还用于:
将所述语义向量输入第一归一化层,由所述第一归一化层在设定维度上对所述语义向量进行划分,形成多个第一语义向量;
获取每个所述第一语义向量的均值和方差,并基于所述第一语义向量的均值和方差进行归一化处理,以生成所述语义向量对应的归一化语义向量。
根据本申请的一个实施例,第一预测模块110,还用于:
基于所述主体元素的第一位置信息,从所述多个第一语义向量中,获取所述主体元素的第一语义向量。
根据本申请的一个实施例,第二预测模块130,还用于:
将所述第一语义向量和所述语义向量输入第二分类器中,由所述第二分类器对所述待抽取文本进行对象元素的识别,获取所述待识别文本中每个字符的第二识别概率;
识别出所述第二识别概率大于第二预设概率的第二连续字符组作为所述对象元素;
根据所述第二连续字符组中首字符所在位置和结尾字符所在位置,确定所述对象元素的第二位置信息。
根据本申请的一个实施例,第二预测模块130,还用于:
以获取的主体元素的第一语义向量为条件,对所述第一语义向量进行矩阵变换,更新第二归一化层的模型参数;
由更新的所述条件归一化层对所述语义向量进行归一化处理,生成所述语义向量对应的条件归一化语义向量。
根据本申请的一个实施例,生成模块140,还用于:
响应于基于所述第二位置信息提取出的文本片段异常,获取所述待抽取文本的关联文本;
将所述关联文本输入命名实体识别模型中,通过所述命名实体识别模型,从所述关联文本中提取实体,并识别所述实体的实体类型;
获取与异常对象元素的实例类型一致目标实体,并将所述目标实体对应的文本片段确定为所述异常对象元素对应的文本片段,其中,所述异常对象元素为提取出异常的所述文本片段对应的对象元素。
由此,本申请提出的信息抽取装置,可以通过获取待抽取文本的语义向量,并基于语义向量,预测待抽取文本中的主体元素,以及主体元素的第一位置信息,然后基于主体元素的第一位置信息,从语义向量中获取主体元素的第一语义向量,并基于主体元素的第一语义向量和语义向量,预测待抽取文本中的对象元素,以及对象元素的第二位置信息,进而根据第一位置信息和第二位置信息,从待抽取文本的抽取文本片段,以生成待抽取文本的结构化信息,以实现信息抽取,使得根据第一位置信息和第二位置信息,能够自动、精确地对信息进行抽取,无需人工干预,节省了人工成本,缩短了抽取耗时,确保了信息抽取结果的准确性,提高了信息抽取过程中的效率、准确性和可靠性。
基于同一申请构思,本申请实施例还提供了一种电子设备。
图15为本申请实施例提供的电子设备的结构示意图。如图15所示,该电子设备3000,包括存储器310、处理器320及存储在存储器310上并可在处理器320上运行的计算机程序,处理器执行程序时,实现前述的信息抽取方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本申请可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (11)

1.一种信息抽取方法,其特征在于,包括:
获取待抽取文本的语义向量,并基于所述语义向量,预测所述待抽取文本中的主体元素,以及所述主体元素的第一位置信息;
基于所述主体元素的第一位置信息,从所述语义向量中获取所述主体元素的第一语义向量;
基于所述主体元素的第一语义向量和所述语义向量,预测所述待抽取文本中的对象元素,以及所述对象元素的第二位置信息;
根据所述第一位置信息和所述第二位置信息,从所述待抽取文本的抽取文本片段,以生成所述待抽取文本的结构化信息。
2.根据权利要求1所述的信息抽取方法,其特征在于,所述根据所述第一位置信息和所述第二位置信息,从所述待抽取文本的提取文本片段,以生成所述待抽取文本的结构化信息,包括:
基于所述第一位置信息,从所述第一位置上抽取所述主体元素对应的第一文本片段;
基于所述第二位置信息,从所述第二位置上抽取所述对象元素对应的第二文本片段;
基于所述第一文本片段和所述第二文本片段,生成所述待抽取文本的结构化信息。
3.根据权利要求1或2所述的信息抽取方法,其特征在于,所述基于所述语义向量,预测所述待抽取文本中的主体元素,以及所述主体元素的第一位置信息,包括:
将所述语义向量输入第一分类器中,由所述第一分类器对所述待抽取文本进行主体元素的识别,获取所述待识别文本中每个字符的第一识别概率;
识别出所述第一识别概率大于第一预设概率的第一连续字符组作为所述主体元素;
根据所述第一连续字符组中首字符所在位置和结尾字符所在位置,确定所述主体元素的第一位置信息。
4.根据权利要求3所述的信息抽取方法,其特征在于,所述将所述语义向量输入第一分类器中之前,还包括:
将所述语义向量输入第一归一化层,由所述第一归一化层在设定维度上对所述语义向量进行划分,形成多个第一语义向量;
获取每个所述第一语义向量的均值和方差,并基于所述第一语义向量的均值和方差进行归一化处理,以生成所述语义向量对应的归一化语义向量。
5.根据权利要求4所述的信息抽取方法,其特征在于,所述基于所述主体元素的第一位置信息,从所述语义向量中获取所述主体元素的第一语义向量,包括:
基于所述主体元素的第一位置信息,从所述多个第一语义向量中,获取所述主体元素的第一语义向量。
6.根据权利要求4所述的信息抽取方法,其特征在于,所述基于所述主体元素的第一语义向量和所述语义向量,预测所述待抽取文本中的对象元素,以及所述对象元素的第二位置信息,包括:
将所述第一语义向量和所述语义向量输入第二分类器中,由所述第二分类器对所述待抽取文本进行对象元素的识别,获取所述待识别文本中每个字符的第二识别概率;
识别出所述第二识别概率大于第二预设概率的第二连续字符组作为所述对象元素;
根据所述第二连续字符组中首字符所在位置和结尾字符所在位置,确定所述对象元素的第二位置信息。
7.根据权利要求6所述的信息抽取方法,其特征在于,所述将所述第一语义向量和所述语义向量输入第二分类器中之前,还包括:
以获取的主体元素的第一语义向量为条件,对所述第一语义向量进行矩阵变换,更新第二归一化层的模型参数;
由更新的所述条件归一化层对所述语义向量进行归一化处理,生成所述语义向量对应的条件归一化语义向量。
8.根据权利要求1或2任一项所述的信息抽取方法,其特征在于,所述基于所述文本片段生成所述待抽取文本的结构化信息之前,还包括:
响应于基于所述第二位置信息提取出的文本片段异常,获取所述待抽取文本的关联文本;
将所述关联文本输入命名实体识别模型中,通过所述命名实体识别模型,从所述关联文本中提取实体,并识别所述实体的实体类型;
获取与异常对象元素的实例类型一致目标实体,并将所述目标实体对应的文本片段确定为所述异常对象元素对应的文本片段,其中,所述异常对象元素为提取出异常的所述文本片段对应的对象元素。
9.一种信息抽取装置,其特征在于,包括:
第一预测模块,用于获取待抽取文本的语义向量,并基于所述语义向量,预测所述待抽取文本中的主体元素,以及所述主体元素的第一位置信息;
获取模块,用于基于所述主体元素的第一位置信息,从所述语义向量中获取所述主体元素的第一语义向量;
第二预测模块,用于基于所述主体元素的第一语义向量和所述语义向量,预测所述待抽取文本中的对象元素,以及所述对象元素的第二位置信息;
生成模块,用于根据所述第一位置信息和所述第二位置信息,从所述待抽取文本的抽取文本片段,以生成所述待抽取文本的结构化信息。
10.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时,实现如权利要求1-8中任一项所述的信息抽取方法。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8中任一项所述的信息抽取方法。
CN202110159013.3A 2021-02-04 2021-02-04 一种信息抽取方法、装置及电子设备 Active CN112860855B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110159013.3A CN112860855B (zh) 2021-02-04 2021-02-04 一种信息抽取方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110159013.3A CN112860855B (zh) 2021-02-04 2021-02-04 一种信息抽取方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN112860855A true CN112860855A (zh) 2021-05-28
CN112860855B CN112860855B (zh) 2024-02-06

Family

ID=75988989

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110159013.3A Active CN112860855B (zh) 2021-02-04 2021-02-04 一种信息抽取方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN112860855B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113779202A (zh) * 2021-11-15 2021-12-10 腾讯科技(深圳)有限公司 命名实体识别方法、装置、计算机设备和存储介质
CN113806496A (zh) * 2021-11-19 2021-12-17 航天宏康智能科技(北京)有限公司 从文本序列中抽取实体的方法及装置
CN114925693A (zh) * 2022-01-05 2022-08-19 华能贵诚信托有限公司 一种基于多模型融合的多元关系抽取方法和抽取系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304911A (zh) * 2018-01-09 2018-07-20 中国科学院自动化研究所 基于记忆神经网络的知识抽取方法以及系统和设备
KR20180094664A (ko) * 2017-02-16 2018-08-24 포항공과대학교 산학협력단 텍스트 데이터로부터 정보를 추출하기 위한 정보 추출 방법 및 장치
WO2019051064A1 (en) * 2017-09-06 2019-03-14 Rosoka Software, Inc. SEMANTIC VECTOR RULE DISCOVERY
CN111259106A (zh) * 2019-12-31 2020-06-09 贵州大学 一种结合神经网络和特征演算的关系抽取方法
WO2020176710A1 (en) * 2019-02-27 2020-09-03 Sigma Ratings, Inc. Automatic identifying system and method
CN112069319A (zh) * 2020-09-10 2020-12-11 杭州中奥科技有限公司 文本抽取方法、装置、计算机设备和可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180094664A (ko) * 2017-02-16 2018-08-24 포항공과대학교 산학협력단 텍스트 데이터로부터 정보를 추출하기 위한 정보 추출 방법 및 장치
WO2019051064A1 (en) * 2017-09-06 2019-03-14 Rosoka Software, Inc. SEMANTIC VECTOR RULE DISCOVERY
CN108304911A (zh) * 2018-01-09 2018-07-20 中国科学院自动化研究所 基于记忆神经网络的知识抽取方法以及系统和设备
WO2020176710A1 (en) * 2019-02-27 2020-09-03 Sigma Ratings, Inc. Automatic identifying system and method
CN111259106A (zh) * 2019-12-31 2020-06-09 贵州大学 一种结合神经网络和特征演算的关系抽取方法
CN112069319A (zh) * 2020-09-10 2020-12-11 杭州中奥科技有限公司 文本抽取方法、装置、计算机设备和可读存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113779202A (zh) * 2021-11-15 2021-12-10 腾讯科技(深圳)有限公司 命名实体识别方法、装置、计算机设备和存储介质
CN113779202B (zh) * 2021-11-15 2022-02-08 腾讯科技(深圳)有限公司 命名实体识别方法、装置、计算机设备和存储介质
CN113806496A (zh) * 2021-11-19 2021-12-17 航天宏康智能科技(北京)有限公司 从文本序列中抽取实体的方法及装置
CN114925693A (zh) * 2022-01-05 2022-08-19 华能贵诚信托有限公司 一种基于多模型融合的多元关系抽取方法和抽取系统

Also Published As

Publication number Publication date
CN112860855B (zh) 2024-02-06

Similar Documents

Publication Publication Date Title
CN112860855B (zh) 一种信息抽取方法、装置及电子设备
CN108829893B (zh) 确定视频标签的方法、装置、存储介质和终端设备
JP7028858B2 (ja) 電子記録の文脈検索のためのシステム及び方法
US10169305B2 (en) Marking comparison for similar documents
US8577882B2 (en) Method and system for searching multilingual documents
CN106934069B (zh) 数据检索方法及系统
CN109165382B (zh) 一种加权词向量和潜在语义分析结合的相似缺陷报告推荐方法
CN111291177A (zh) 一种信息处理方法、装置和计算机存储介质
US20160071511A1 (en) Method and apparatus of smart text reader for converting web page through text-to-speech
WO2019028990A1 (zh) 代码元素的命名方法、装置、电子设备及介质
US8484229B2 (en) Method and system for identifying traditional arabic poems
CN105612522A (zh) 用于基于内容的医学宏分类和搜索系统的系统和方法
Kapoor et al. Hldc: Hindi legal documents corpus
CN110738059A (zh) 一种文本相似度计算方法及系统
EP3404553A1 (en) Open information extraction method and system for extracting reified ternary relationship
US12013903B2 (en) System and method for search discovery
CN115526171A (zh) 一种意图识别方法、装置、设备及计算机可读存储介质
WO2019163642A1 (ja) 要約評価装置、方法、プログラム、及び記憶媒体
CN114003725A (zh) 信息标注模型的构建方法以及信息标注的生成方法
US9588965B2 (en) Identifying and characterizing an analogy in a document
CN117033633A (zh) 一种文本分类方法、系统、介质及设备
CN114743012B (zh) 一种文本识别方法及装置
KR102520305B1 (ko) 키워드 빈도수와 영역 중요도 분석 기반 딥러닝 문서 분석 시스템 및 방법
US10002450B2 (en) Analyzing a document that includes a text-based visual representation
CN113515949A (zh) 使用一般和目标领域知识的弱监督语义实体识别

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Beijing Economic and Technological Development Zone, 100176

Applicant after: Jingdong Technology Holding Co.,Ltd.

Address before: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Beijing Economic and Technological Development Zone, 100176

Applicant before: Jingdong Digital Technology Holding Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant