CN110413743B - 一种关键信息抽取方法、装置、设备及存储介质 - Google Patents

一种关键信息抽取方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110413743B
CN110413743B CN201910734867.2A CN201910734867A CN110413743B CN 110413743 B CN110413743 B CN 110413743B CN 201910734867 A CN201910734867 A CN 201910734867A CN 110413743 B CN110413743 B CN 110413743B
Authority
CN
China
Prior art keywords
key information
target text
sequence
feature
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910734867.2A
Other languages
English (en)
Other versions
CN110413743A (zh
Inventor
张丹
赵景鹤
高丽蓉
胡加学
贺志阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Iflytek Medical Technology Co ltd
Original Assignee
Anhui Iflytek Medical Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Iflytek Medical Information Technology Co ltd filed Critical Anhui Iflytek Medical Information Technology Co ltd
Priority to CN201910734867.2A priority Critical patent/CN110413743B/zh
Publication of CN110413743A publication Critical patent/CN110413743A/zh
Application granted granted Critical
Publication of CN110413743B publication Critical patent/CN110413743B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种关键信息抽取方法、装置、设备及存储介质,方法包括:获取待抽取关键信息的目标文本,从目标文本中获取关键信息特征序列,根据目标文本和关键信息特征序列,确定具有特定语义和特定结构的目标关键信息。本申请提供的关键信息抽取方法自动化程度高、通用性强、实现简单且抽取的关键信息满足业务需求。

Description

一种关键信息抽取方法、装置、设备及存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种关键信息抽取方法、装置、设备及存储介质。
背景技术
随着人工智能技术的发展,智能外呼、智能客服等一批人工智能产品应运而生,这类智能产品能够通过语音识别、语义理解等技术了解用户的意图,完成与用户的语音交互过程。
在语义理解中有两类任务,一类是意图识别,另一类是关键信息抽取。对于关键信息抽取,目前的关键信息抽取方案大多是基于规则的抽取方案。但是,基于规则的抽取方案自动化程度低且通用性较差。
发明内容
有鉴于此,本申请提供了一种关键信息抽取方法、装置、设备及存储介质,用以解决现有技术中基于规则的关键信息抽取方案自动化程度低且通用性较差的问题,其技术方案如下:
一种关键信息抽取方法,包括:
获取待抽取关键信息的目标文本;
从所述目标文本中获取关键信息特征序列,其中,所述关键信息特征序列能够表征所述目标文本中的关键信息;
根据所述目标文本和所述关键信息特征序列,确定具有特定语义和特定结构的目标关键信息。
可选的,所述从所述目标文本中获取关键信息特征序列,包括:
通过预先建立的关键信息抽取模型中的关键信息特征提取部分,从所述目标文本中提取所述关键信息特征序列;
其中,所述关键信息特征序列中包括所述目标文本中每个字对应的关键信息特征,一个字对应的关键信息特征能够表征该字是否为关键信息。
可选的,所述通过预先建立的关键信息抽取模型中的关键信息特征提取部分,从所述目标文本中提取所述关键信息特征序列,包括:
通过所述关键信息特征提取部分中的字嵌入表示模块,确定所述目标文本对应的字向量序列,其中,所述字向量序列中包括所述目标文本中每个字的字嵌入表示向量;
通过所述关键信息特征提取部分中的关键信息特征确定模块和所述目标文本对应的字向量序列,判别所述目标文本中的每个字是否为关键信息,并根据判别结果获得能够表征所述目标文本中的每个字是否为关键信息的关键信息特征序列。
可选的,所述根据所述目标文本和所述关键信息特征序列,确定具有特定语义和特定结构的目标关键信息,包括:
通过预先建立的关键信息抽取模型中的关键信息确定部分,以及所述目标文本和所述关键信息特征序列,确定具有特定语义和特定结构的目标关键信息。
可选的,所述通过预先建立的关键信息抽取模型中的关键信息确定部分,以及所述目标文本和所述关键信息特征序列,确定具有特定语义和特定结构的目标关键信息,包括:
通过所述关键信息确定部分中的编码模块,将所述目标文本编码为包含上下文信息的特征序列;
将通过所述编码模块编码得到的特征序列与所述关键信息特征序列进行拼接,获得拼接后的特征序列;
通过所述关键信息确定部分中的解码模块,确定所述拼接后的特征序列中每个特征的注意力权重,并根据所述拼接后的特征序列和所述拼接后的特征序列中每个特征的注意力权重,确定所述目标关键信息。
可选的,所述关键信息特征提取部分中的字嵌入表示模块由稠密卷积神经网络根据大量训练文本训练得到,所述关键信息特征确定模块为双向长短时记忆网络。
一种关键信息抽取装置,包括:文本获取模块、关键信息特征获取模块和关键信息确定模块;
所述文本获取模块,用于获取待抽取关键信息的目标文本;
所述关键信息特征获取模块,用于从所述目标文本中提取关键信息特征序列,其中,所述关键信息特征序列能够表征所述目标文本中的关键信息;
所述关键信息确定模块,用于根据所述目标文本和所述关键信息特征序列,确定具有特定语义和特定结构的目标关键信息。
可选的,所述关键信息特征获取模块,具体用于通过预先建立的关键信息抽取模型中的关键信息特征提取部分,从所述目标文本中提取所述关键信息特征序列;
其中,所述关键信息特征序列中包括所述目标文本中每个字对应的关键信息特征,一个字对应的关键信息特征能够表征该字是否为关键信息。
可选的,所述关键信息特征获取模块,具体用于通过所述关键信息特征提取部分中的字嵌入表示模块,确定所述目标文本对应的字向量序列,其中,所述字向量序列中包括所述目标文本中每个字的字嵌入表示向量;以及通过所述关键信息特征提取部分中的关键信息特征确定模块和所述目标文本对应的字向量序列,判别所述目标文本中的每个字是否为关键信息,并根据判别结果获得能够表征所述目标文本中的每个字是否为关键信息的关键信息特征序列。
可选的,所述关键信息确定模块,具体用于通过预先建立的关键信息抽取模型中的关键信息确定部分,以及所述目标文本和所述关键信息特征序列,确定具有特定语义和特定结构的目标关键信息。
可选的,所述关键信息确定模块,具体用于通过所述关键信息确定部分中的编码模块,将所述目标文本编码为包含上下文信息的特征序列;将通过所述编码模块编码得到的特征序列与所述关键信息特征序列进行拼接,获得拼接后的特征序列;通过所述关键信息确定部分中的解码模块,确定所述拼接后的特征序列中每个特征的注意力权重,并根据所述拼接后的特征序列和所述拼接后的特征序列中每个特征的注意力权重,确定所述目标关键信息。
一种关键信息抽取设备,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现上述任一项所述的关键信息抽取方法的各个步骤。
一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现上述任一项所述的关键信息抽取方法的各个步骤。
经由上述方案可知,本申请提供的关键信息抽取方法、装置、设备及存储介质,首先获取待抽取关键信息的目标文本,然后从目标文本中获取能够表征目标文本中的关键信息的关键信息特征序列,最后根据目标文本和关键信息特征序列,确定具有特定语义和特定结构的目标关键信息,由此可见,由于本申请不需要根据待抽取信息的文件编写文法法则,因此,避免了基于文法的关键信息抽取方案所带来的自动化程度低、通用性差等问题,另外,本申请并不是单纯的从目标文本中抽取信息,而是基于目标文本和从目标文本中获取的关键信息特征序列确定具有特定语义和特定结构的关键信息,即本申请提供的关键信息抽取方法能够自动、高效地从目标文本中抽取出满足业务需求的关键信息。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的关键信息抽取方法的流程示意图;
图2为本申请实施例提供的通过预先建立的关键信息抽取模型中的关键信息特征提取部分,从目标文本中提取关键信息特征序列的流程示意图;
图3为本申请实施例提供的稠密卷积神经网络的网络结构示意图;
图4为本申请实施例提供的通过预先建立的关键信息抽取模型中的关键信息确定部分,以及目标文本和所述关键信息特征序列,确定具有特定语义和特定结构的目标关键信息的流程示意图;
图5为本申请实施例提供的利用预先建立的关键信息抽取模型进行关键信息抽取的示意图;
图6为本申请实施例提供的关键信息抽取装置的结构示意图;
图7为本申请实施例提供的关键信息抽取设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
发明人在实现本申请的过程中发现,现有技术中,基于规则的关键信息抽取方案的思路大致为:首先分析待抽取信息的普遍性特点,然后根据待抽取信息的普遍性特点制定相应的抽取规则,再根据制定的抽取规则从待抽取信息中抽取关键信息。由于抽取规则通常人为制定,因此,现有方案的自动化程度较低,并且,不同信息的特点不同,基于某信息制定的抽取规则可能不适用于其它信息,因此,现有方案不具通用性,且信息的复杂程度与方案的实现难度成正比。
鉴于上述基于规则的关键信息抽取方案存在的问题,本案发明人进行研究,起初的思路是:采用基于序列标注模型的关键信息抽取方法,该方法首先收集大量训练数据,并对训练数据进行标注,然后基于大量的标注数据建立序列标注模型,用建立的序列标注模型从待抽取文本中抽取关键信息,其中,序列标注模型可以为基于CRF的序列标注模型,还可以为基于BILSTM-CRF的序列标注模型。
基于序列标注模型的关键信息抽取方法自动化程度较高,且由于序列标注模型采用大量训练数据训练得到,因此,其通用性较强,灵活性较高,且实现简单,但是,发明人经研究发现,基于序列标注模型的关键信息抽取方法仍存在一定的问题,具体体现在:
基于序列标注模型的关键信息抽取方法只能单纯地从待抽取文本中抽取部分序列,比如,在医疗智能外呼的家庭医生随访中,用户的回答文本是“早上吃一粒晚上吃一粒”,基于序列标注模型抽取到的关键信息为“[早上][一粒][晚上][一粒]”,然而单纯地从待抽取文本中抽取的信息的语义和/或结构往往不是期望的,不能满足业务需求,比如,对于上述的回答文本“早上吃一粒晚上吃一粒”而言,期望抽取的关键信息是“一天2次,一次1粒”,而采用序列标注模型无法抽取到“一天2次,一次1粒”这样结构和语义的信息。
鉴于基于序列标注模型的关键信息抽取方法存在的问题,本案发明人进行了进一步研究,最终提出了一种效果较好的关键信息抽取方法,该关键信息抽取方法适用于需要进行关键信息抽取的应用场景,该关键信息抽取方法可应用于具有数据处理能力的终端,也可应用于服务器。接下来通过下述实施例对本申请提供的关键信息抽取方法进行介绍。
请参阅图1,示出了本申请实施例提供的关键信息抽取方法的流程示意图,该方法可以包括:
步骤S101:获取待抽取关键信息的目标文本。
其中,目标文本可以为人工智能产品与用户交互时获取的用户语音对应的文本,比如,智能外呼、智能客户等人工智能产品获取的、用户针对某个或某些问题的回答文本。
步骤S102:从目标文本中获取关键信息特征序列。
其中,关键信息特征序列为目标文本中关键信息的特征序列,关键信息特征序列能够表征目标文本中的关键信息。
示例性的,目标文本为“早上吃一粒晚上吃一粒”,目标文本中的关键信息为“[早上][一粒][晚上][一粒]”,步骤S102的目的在于获取能够表征目标文本中关键信息“[早上][一粒][晚上][一粒]”的特征序列。
在一种可能的实现方式中,从目标文本中获取关键信息特征序列的过程可以包括:通过预先建立的关键信息抽取模型中的关键信息特征提取部分,从目标文本中提取关键信息特征序列。
其中,关键信息特征序列中包括目标文本中每个字对应的关键信息特征,一个字对应的关键信息特征能够表征该字是否为关键信息。
步骤S103:根据目标文本和关键信息特征序列,确定具有特定语义和特定结构的目标关键信息。
示例性的,目标文本为“早上吃一粒晚上吃一粒”,目标文本中的关键信息为“[早上][一粒][晚上][一粒]”,则根据目标文本和目标文本中的关键信息可获得具有特定语义和特定结构的目标关键信息“一天2次,一次1粒”。
具体的,根据目标文本和关键信息特征序列,确定具有特定语义和特定结构的目标关键信息的过程可以包括:通过预先建立的关键信息抽取模型中的关键信息确定部分,以及目标文本和关键信息特征序列,确定具有特定语义和特定结构的目标关键信息。其中,特定语义和特定结构的目标关键信息为满足业务需求的信息。
在本实施例中,目标文本和关键信息特征序列一并输入关键信息抽取模型中的关键信息确定部分,使得关键信息确定部分能够获得更多的语义信息,从而能够确定出更加准确的关键信息。
需要说明的是,具有特定语义和特定结构的目标关键信息的确定过程实质为带有逻辑推理的关键信息抽取任务,针对该任务,本申请提出采用多任务学习的方法,将带有逻辑推理的关键信息抽取任务转换为序列标注任务和序列到序列的任务,基于此,本申请建立基于多任务学习的模型,即关键信息抽取模型,该模型包括两部分,一部分为关键信息特征提取部分,另一部分为关键信息确定部分,其中,关键信息特征提取部分实质为序列标注模型,用于完成序列标注任务,具体的,其用于对输入文本进行序列标注,即标注出输入文本中的关键信息,从而得到关键信息特征序列,序列标注任务的关键信息特征序列与目标文本一并输入关键信息确定部分,关键信息确定部分实质为一个序列到序列的模型,用于完成序列到序列的任务,其根据目标文本和关键信息特征序列进行逻辑推理,逻辑推理的结果即为具有特定语义和特定结构的目标关键信息。
本申请实施例提供的关键信息抽取方法,在获取到待抽取关键信息的目标文本后,先从目标文本中获取能够表征目标文本中的关键信息的关键信息特征序列,然后根据目标文本和关键信息特征序列,确定具有特定语义和特定结构的目标关键信息,由此可见,本申请不需要根据待抽取信息的文本编写文法法则,因此,避免了现有技术中基于文法规则的关键信息抽取方案所带来的自动化程度低、通用性差等问题,另外,本申请并不是单纯的从目标文本中抽取信息,而是基于目标文本和从目标文本中获取的关键信息特征序列确定具有特定语义和特定结构的关键信息,即本申请提供的关键信息抽取方法能够自动、高效地从目标文本中抽取出满足业务需求的关键信息。
上述实施例提到,可通过预先建立的关键信息抽取模型中的关键信息特征提取部分,从目标文本中提取关键信息特征序列,请参阅图2,示出了通过预先建立的关键信息抽取模型中的关键信息特征提取部分,从目标文本中提取关键信息特征序列的流程示意图,可以包括:
步骤S201、通过关键信息特征提取部分中的字嵌入表示模块,确定目标文本对应的字向量序列。
其中,字向量序列中包括目标文本中每个字的字嵌入表示向量。
优选的,本实施例中的字嵌入表示模块可由稠密卷积神经网络DenseNet根据大量训练文本训练得到。字嵌入表示模块能够增强关键信息的特征表示。
请参阅3,示出了稠密卷积神经网络的网络结构示意图,共包含L(L+1)/2个连接,直接连接来自不同层的特征图,网络中使用DenseBlock+Transition的结构,其中,DenseBlock是包含很多层的模块,每个层的特征图大小相同,层与层之间采用密集连接方式,Transition模块连接两个相邻的DenseBlock,并且通过Pooling(池化层)使特征图大小降低。具有密集连接的网络结构不仅能够缓解梯度消失的问题,还能够加强特征传播,鼓励特征复用。可选的,DenseBlock可取3-4个,图3示出的网络结构仅为示意。
步骤S202、通过关键信息特征提取部分中的关键信息特征确定模块和目标文本对应的字向量序列,判别目标文本中的每个字是否为关键信息,并根据判别结果获得能够表征目标文本中的每个字是否为关键信息的关键信息特征序列。
优选的,关键信息特征确定模块可以为双向长短时记忆网络BiLSTM。字嵌入表示模块输出的、目标文本对应的字向量序列输入BiLSTM,BiLSTM根据目标文本对应的字向量序列学习目标文本中的关键信息。
上述实施例提到,可通过预先建立的关键信息抽取模型中的关键信息确定部分,以及目标文本和关键信息特征序列,确定具有特定语义和特定结构的目标关键信息,在一种可能的实现方式中,关键信息抽取模型中的关键信息确定部分可以包括编码模块和解码模块。
请参阅图4,示出了通过预先建立的关键信息抽取模型中的关键信息确定部分,以及目标文本和关键信息特征序列,确定具有特定语义和特定结构的目标关键信息的流程示意图,可以包括:
步骤S401、通过关键信息确定部分中的编码模块,将目标文本编码为包含上下文信息的特征序列。
由于递归神经网络RNN具有对上下文记忆的功能,因此,本实施例中的编码模块可以为递归神经网络RNN,考虑到双向的递归神经网络既能够概括其左侧上下文信息,又能够概括其右侧上下文信息,本实施例中的编码模块优选为双向的递归神经网络,进一步考虑到长短时记忆网络LSTM能够解决RNN的梯度消失或梯度爆炸问题,即LSTM能够学习到长期依赖关系,本实施例中的编码模块优选为双向长短时记忆网络BiLSTM。
步骤S402、将通过编码模块编码得到的特征序列与关键信息特征序列进行拼接,获得拼接后的特征序列。
具体的,在对编码得到的特征序列与关键信息特征序列进行拼接时,将编码得到的特征序列与关键信息特征序列中同一字对应的特征进行拼接。
步骤S403、通过关键信息确定部分中的解码模块,确定拼接后的特征序列中每个特征的注意力权重,并根据拼接后的特征序列和拼接后的特征序列中每个特征的注意力权重,确定目标关键信息。
本实施例将目标文本和关键特征序列一同作为输入,形成能够表示、传递、计算语义的向量,这使得中间向量更加精准地在编码模块和解码模块之间传递语义,从而能够指导和约束解码模块生成更为准确的信息。
请参阅图5,示出了利用预先建立的关键信息抽取模型进行关键信息抽取的示意图,接下来,在上述实施例的基础上,结合图5对本申请提供的关键信息抽取方法进一步进行说明:
可以理解的是,目标文本实质上是一个序列,因此,目标文本可用序列表示,假设目标文本包括n个字,则目标文本可表示为序列(x1,x2,x3,...,xn),其中,xi表示目标文本中的第i(i=1,2,…,n)个字,将(x1,x2,x3,...,xn)输入关键信息抽取模型中的关键信息特征提取部分,通过关键信息特征提取部分中的字嵌入表示模块确定(x1,x2,x3,...,xn)中每个字的字嵌入表示向量,从而获得目标文本对应的字向量序列,将目标文本对应的字向量序列输入关键信息特征提取部分的关键信息特征确定模块,即图5中的BiLSTM2,正向的LSTM2输出隐状态序列
Figure BDA0002161835560000101
反向的LSTM2输出隐状态序列
Figure BDA0002161835560000102
将正向的LSTM2输出的隐状态序列
Figure BDA0002161835560000103
与反向的LSTM2输出的隐状态序列
Figure BDA0002161835560000104
按位置拼接,即将
Figure BDA0002161835560000105
Figure BDA0002161835560000106
拼接、
Figure BDA0002161835560000107
Figure BDA0002161835560000108
拼接、…
Figure BDA0002161835560000109
Figure BDA00021618355600001010
拼接,拼接后可得到
Figure BDA00021618355600001011
拼接后得到的序列即为能够表征目标文本中的关键信息的关键信息特征序列。
获得关键信息特征序列后,将关键信息特征序列和目标文本一并输入关键信息抽取模型中的关键信息确定部分,如图5所示,关键信息确定部分中的编码模块即BiLSTM1对(x1,x2,x3,...,xn)进行编码,将(x1,x2,x3,...,xn)编码为包含上下文信息的特征序列,具体的,将表示目标文本的序列(x1,x2,x3,...,xn)输入BiLSTM1,正向的LSTM1输出隐状态序列
Figure BDA00021618355600001012
反正的LSTM1输出隐状态序列
Figure BDA00021618355600001013
将正向的LSTM 1输出的隐状态序列
Figure BDA00021618355600001014
与反正的LSTM1输出的隐状态序列
Figure BDA00021618355600001015
按位置进行拼接,可得到
Figure BDA00021618355600001016
拼接后得到序列即为目标文本对应的、包含上下文信息的特征序列,其中,
Figure BDA00021618355600001017
为xi的具有上下文信息的表达。编码模块编码得到的包含上下文信息的特征序列
Figure BDA00021618355600001018
将被解码模块用以动态计算上下文向量和目标关键信息中字的概率分布,进而确定目标关键信息。
获得编码模块编码得到的包含上下文信息的特征序列
Figure BDA0002161835560000111
后,将该特征序列与关键信息特征提取部分输出的关键信息特征序列
Figure BDA0002161835560000112
进行拼接,拼接后得到
Figure BDA0002161835560000113
拼接后的特征序列输入关键信息确定部分中的解码模块进行解码,拼接后的特征序列
Figure BDA0002161835560000114
作为解码模块的源输入隐状态序列。
解码模块在解码时,采用注意力机制,即解码模块在生成某一目标字时,动态地注意源输入隐状态序列中与之相关的上下文向量,而不再关注整个源输入隐状态序列,即解码的关键在于基于注意力的上下文向量的生成。需要说明的是,注意力机制是从大量信息中有选择地筛选出少量重要信息并聚焦到这些重要信息上,忽略大多不重要的信息,聚焦的过程体现在注意力权重的计算上,权重越大越聚焦于其对应的信息上,即权重代表了信息的重要性。
如图5所示,每个当前时刻待生成词yt在源端对应的上下文向量ct是由关键信息特征序列与编码模块编码得到的特征序列进行拼接后形成的源输入隐状态序列
Figure BDA0002161835560000115
和注意力权重αt加权求和得到,而注意力权重αt由t-1时刻目标端隐状态st-1和源端隐状态ej共同作用产生,即:
Figure BDA0002161835560000116
Figure BDA0002161835560000117
bt,j=m(st-1,ej) (3)
其中,ej为源输入隐状态序列e中的
Figure BDA0002161835560000121
exp为指数函数,m、h和f为非线性激活函数。
得到上下文向量ct后,当前时刻解码模块隐状态st与当前时刻待生成词yt的条件概率分布分别可由公式(4)和公式(5)求解:
st=hdecoder(st-1,yt-1,ct) (4)
p(yt|y<t,X)=soft max(f(st,yt-1,ct)) (5)
本申请实施例提供的关键信息抽取方法,首先,将对目标文本中包含的关键信息进行逻辑推理的过程转换为序列到序列的任务,不需要根据不同任务编写文法规则,这使得本申请实施例提供的关键信息抽取方法更具灵活性和自学习性;其次,本申请实施例并不是单纯地从目标文本中抽取关键信息,而是利用从目标文本中提取的关键信息特征序列和目标文本确定具有特定语义和特定结构的关键信息,这使得确定出关键信息能够满足业务需求;另外,在进行关键信息特征提取时,通过大量训练文本训练DenseNet得到的字嵌入表示能够增强关键信息的特征表示,而结合目标文本确定关键信息能够增加更多语义,从而使得确定出的关键信息更加准确。
本申请实施例还提供了一种关键信息抽取装置,下面对本申请实施例提供的关键信息抽取装置进行描述,下文描述的关键信息抽取装置与上文描述的关键信息抽取方法可相互对应参照。
请参阅图6,示出了本申请实施例提供的一种关键信息抽取装置的结构示意图,该装置可以包括:文本获取模块601、关键信息特征获取模块602和关键信息确定模块603。
文本获取模块601,用于获取待抽取关键信息的目标文本。
关键信息特征获取模块602,用于从所述目标文本中提取关键信息特征序列,其中,所述关键信息特征序列能够表征所述目标文本中的关键信息。
关键信息确定模块603,用于根据所述目标文本和所述关键信息特征序列,确定具有特定语义和特定结构的目标关键信息。
本申请实施例提供的关键信息抽取装置,在获取到待抽取关键信息的目标文本后,先从目标文本中获取能够表征目标文本中的关键信息的关键信息特征序列,然后根据目标文本和关键信息特征序列,确定具有特定语义和特定结构的目标关键信息,由此可见,由于本申请实施例不需要根据待抽取信息的文本编写文法法则,因此,避免了现有技术中基于文法规则的关键信息抽取方案所带来的自动化程度低、通用性差等问题,另外,本申请实施例并不是单纯的从目标文本中抽取信息,而是基于目标文本和从目标文本中获取的关键信息特征序列确定具有特定语义和特定结构的关键信息,即本申请提供的关键信息抽取方法能够自动、高效地从目标文本中抽取出满足业务需求的关键信息。
在一种可能的实现方式中,上述实施例提供的关键信息抽取装置中的关键信息特征获取模块602,具体用于通过预先建立的关键信息抽取模型中的关键信息特征提取部分,从所述目标文本中提取所述关键信息特征序列。
其中,所述关键信息特征序列中包括所述目标文本中每个字对应的关键信息特征,一个字对应的关键信息特征能够表征该字是否为关键信息。
在一种可能的实现方式中,关键信息特征获取模块602,具体用于通过所述关键信息特征提取部分中的字嵌入表示模块,确定所述目标文本对应的字向量序列;以及通过所述关键信息特征提取部分中的关键信息特征确定模块和所述目标文本对应的字向量序列,判别所述目标文本中的每个字是否为关键信息,并根据判别结果获得能够表征所述目标文本中的每个字是否为关键信息的关键信息特征序列。其中,所述字向量序列中包括所述目标文本中每个字的字嵌入表示向量
在一种可能的实现方式中,上述实施例提供的关键信息抽取装置中的关键信息确定模块603,具体用于通过预先建立的关键信息抽取模型中的关键信息确定部分,以及所述目标文本和所述关键信息特征序列,确定具有特定语义和特定结构的目标关键信息。
在一种可能的实现方式中,上述实施例提供的关键信息抽取装置中的关键信息确定模块603,具体用于通过所述关键信息确定部分中的编码模块,将所述目标文本编码为包含上下文信息的特征序列;将通过所述编码模块编码得到的特征序列与所述关键信息特征序列进行拼接,获得拼接后的特征序列;通过所述关键信息确定部分中的解码模块,确定所述拼接后的特征序列中每个特征的注意力权重,并根据所述拼接后的特征序列和所述拼接后的特征序列中每个特征的注意力权重,确定所述目标关键信息。
在一种可能的实现方式中,上述实施例中的关键信息特征提取部分中的字嵌入表示模块由稠密卷积神经网络根据大量训练文本训练得到,所述关键信息特征确定模块为双向长短时记忆网络。
本申请实施例还提供了一种关键信息抽取设备,请参阅图7,示出了该关键信息抽取设备的结构示意图,该关键信息抽取设备可以包括:至少一个处理器701,至少一个通信接口702,至少一个存储器703和至少一个通信总线704;
在本申请实施例中,处理器701、通信接口702、存储器703、通信总线704的数量为至少一个,且处理器701、通信接口702、存储器703通过通信总线704完成相互间的通信;
处理器701可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器703可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
获取待抽取关键信息的目标文本;
从所述目标文本中获取关键信息特征序列,其中,所述关键信息特征序列能够表征所述目标文本中的关键信息;
根据所述目标文本和所述关键信息特征序列,确定具有特定语义和特定结构的目标关键信息。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的程序,所述程序用于:
获取待抽取关键信息的目标文本;
从所述目标文本中获取关键信息特征序列,其中,所述关键信息特征序列能够表征所述目标文本中的关键信息;
根据所述目标文本和所述关键信息特征序列,确定具有特定语义和特定结构的目标关键信息。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (13)

1.一种关键信息抽取方法,其特征在于,包括:
获取待抽取关键信息的目标文本;
从所述目标文本中获取关键信息特征序列,其中,所述关键信息特征序列能够表征所述目标文本中的关键信息;
根据所述目标文本和所述关键信息特征序列,确定具有特定语义和特定结构的目标关键信息;
所述从所述目标文本中获取关键信息特征序列,包括:
通过序列标注的形式标注出所述目标文本中的关键信息,并获取表征所述目标文本中的关键信息的关键信息特征序列;
所述根据所述目标文本和所述关键信息特征序列,确定具有特定语义和特定结构的目标关键信息,包括:
通过对所述目标文本和所述关键信息特征序列进行逻辑推理,确定具有特定语义和特定结构的目标关键信息,其中,进行逻辑推理的过程为执行序列到序列的任务的过程。
2.根据权利要求1所述的关键信息抽取方法,其特征在于,所述从所述目标文本中获取关键信息特征序列,包括:
通过预先建立的关键信息抽取模型中的关键信息特征提取部分,从所述目标文本中提取所述关键信息特征序列;
其中,所述关键信息特征序列中包括所述目标文本中每个字对应的关键信息特征,一个字对应的关键信息特征能够表征该字是否为关键信息。
3.根据权利要求2所述的关键信息抽取方法,其特征在于,所述通过预先建立的关键信息抽取模型中的关键信息特征提取部分,从所述目标文本中提取所述关键信息特征序列,包括:
通过所述关键信息特征提取部分中的字嵌入表示模块,确定所述目标文本对应的字向量序列,其中,所述字向量序列中包括所述目标文本中每个字的字嵌入表示向量;
通过所述关键信息特征提取部分中的关键信息特征确定模块和所述目标文本对应的字向量序列,判别所述目标文本中的每个字是否为关键信息,并根据判别结果获得能够表征所述目标文本中的每个字是否为关键信息的关键信息特征序列。
4.根据权利要求2所述的关键信息抽取方法,其特征在于,所述根据所述目标文本和所述关键信息特征序列,确定具有特定语义和特定结构的目标关键信息,包括:
通过预先建立的关键信息抽取模型中的关键信息确定部分,以及所述目标文本和所述关键信息特征序列,确定具有特定语义和特定结构的目标关键信息。
5.根据权利要求4所述的关键信息抽取方法,其特征在于,所述通过预先建立的关键信息抽取模型中的关键信息确定部分,以及所述目标文本和所述关键信息特征序列,确定具有特定语义和特定结构的目标关键信息,包括:
通过所述关键信息确定部分中的编码模块,将所述目标文本编码为包含上下文信息的特征序列;
将通过所述编码模块编码得到的特征序列与所述关键信息特征序列进行拼接,获得拼接后的特征序列;
通过所述关键信息确定部分中的解码模块,确定所述拼接后的特征序列中每个特征的注意力权重,并根据所述拼接后的特征序列和所述拼接后的特征序列中每个特征的注意力权重,确定所述目标关键信息。
6.根据权利要求3所述的关键信息抽取方法,其特征在于,所述关键信息特征提取部分中的字嵌入表示模块由稠密卷积神经网络根据大量训练文本训练得到,所述关键信息特征确定模块为双向长短时记忆网络。
7.一种关键信息抽取装置,其特征在于,包括:文本获取模块、关键信息特征获取模块和关键信息确定模块;
所述文本获取模块,用于获取待抽取关键信息的目标文本;
所述关键信息特征获取模块,用于从所述目标文本中提取关键信息特征序列,其中,所述关键信息特征序列能够表征所述目标文本中的关键信息;
所述关键信息确定模块,用于根据所述目标文本和所述关键信息特征序列,确定具有特定语义和特定结构的目标关键信息;
所述关键信息特征获取模块,具体用于通过序列标注的形式标注出所述目标文本中的关键信息,并获取表征所述目标文本中的关键信息的关键信息特征序列;
所述关键信息确定模块,具体用于通过对所述目标文本和所述关键信息特征序列进行逻辑推理,确定具有特定语义和特定结构的目标关键信息,其中,进行逻辑推理的过程为执行序列到序列的任务的过程。
8.根据权利要求7所述的关键信息抽取装置,其特征在于,所述关键信息特征获取模块,具体用于通过预先建立的关键信息抽取模型中的关键信息特征提取部分,从所述目标文本中提取所述关键信息特征序列;
其中,所述关键信息特征序列中包括所述目标文本中每个字对应的关键信息特征,一个字对应的关键信息特征能够表征该字是否为关键信息。
9.根据权利要求8所述的关键信息抽取装置,其特征在于,所述关键信息特征获取模块,具体用于通过所述关键信息特征提取部分中的字嵌入表示模块,确定所述目标文本对应的字向量序列,其中,所述字向量序列中包括所述目标文本中每个字的字嵌入表示向量;以及通过所述关键信息特征提取部分中的关键信息特征确定模块和所述目标文本对应的字向量序列,判别所述目标文本中的每个字是否为关键信息,并根据判别结果获得能够表征所述目标文本中的每个字是否为关键信息的关键信息特征序列。
10.根据权利要求7所述的关键信息抽取装置,其特征在于,所述关键信息确定模块,具体用于通过预先建立的关键信息抽取模型中的关键信息确定部分,以及所述目标文本和所述关键信息特征序列,确定具有特定语义和特定结构的目标关键信息。
11.根据权利要求10所述的关键信息抽取装置,其特征在于,所述关键信息确定模块,具体用于通过所述关键信息确定部分中的编码模块,将所述目标文本编码为包含上下文信息的特征序列;将通过所述编码模块编码得到的特征序列与所述关键信息特征序列进行拼接,获得拼接后的特征序列;通过所述关键信息确定部分中的解码模块,确定所述拼接后的特征序列中每个特征的注意力权重,并根据所述拼接后的特征序列和所述拼接后的特征序列中每个特征的注意力权重,确定所述目标关键信息。
12.一种关键信息抽取设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1~6中任一项所述的关键信息抽取方法的各个步骤。
13.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1~6中任一项所述的关键信息抽取方法的各个步骤。
CN201910734867.2A 2019-08-09 2019-08-09 一种关键信息抽取方法、装置、设备及存储介质 Active CN110413743B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910734867.2A CN110413743B (zh) 2019-08-09 2019-08-09 一种关键信息抽取方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910734867.2A CN110413743B (zh) 2019-08-09 2019-08-09 一种关键信息抽取方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN110413743A CN110413743A (zh) 2019-11-05
CN110413743B true CN110413743B (zh) 2022-05-06

Family

ID=68366987

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910734867.2A Active CN110413743B (zh) 2019-08-09 2019-08-09 一种关键信息抽取方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN110413743B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111125386B (zh) * 2019-12-02 2023-03-14 深圳市雅阅科技有限公司 媒体资源的处理方法和装置、存储介质及电子装置
CN111143691B (zh) * 2019-12-31 2023-04-18 四川长虹电器股份有限公司 一种联合信息抽取方法及装置
CN111310436B (zh) * 2020-02-11 2022-02-15 腾讯科技(深圳)有限公司 基于人工智能的文本处理方法、装置及电子设备
CN111177326B (zh) * 2020-04-10 2020-08-04 深圳壹账通智能科技有限公司 基于精标注文本的关键信息抽取方法、装置及存储介质
CN112115892A (zh) * 2020-09-24 2020-12-22 科大讯飞股份有限公司 一种关键要素抽取方法、装置、设备及存储介质
CN112528326B (zh) * 2020-12-09 2024-01-02 维沃移动通信有限公司 信息处理方法、装置及电子设备
CN112883194B (zh) * 2021-04-06 2024-02-20 讯飞医疗科技股份有限公司 一种症状信息抽取方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2018101514A4 (en) * 2018-10-11 2018-11-15 Chi, Henan Mr An automatic text-generating program for Chinese Hip-hop lyrics
CN109165384A (zh) * 2018-08-23 2019-01-08 成都四方伟业软件股份有限公司 一种命名实体识别方法及装置
CN109189862A (zh) * 2018-07-12 2019-01-11 哈尔滨工程大学 一种面向科技情报分析的知识库构建方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189862A (zh) * 2018-07-12 2019-01-11 哈尔滨工程大学 一种面向科技情报分析的知识库构建方法
CN109165384A (zh) * 2018-08-23 2019-01-08 成都四方伟业软件股份有限公司 一种命名实体识别方法及装置
AU2018101514A4 (en) * 2018-10-11 2018-11-15 Chi, Henan Mr An automatic text-generating program for Chinese Hip-hop lyrics

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Towards a One-stop Solution to Both Aspect Extraction and Sentiment Analysis Tasks with Neural Multi-task Learning;F Wang et al.;《2018 International Joint Conference on Neural Networks (IJCNN)》;20180701;全文 *
基于注意力机制的 LSTM 的语义关系抽取;王红 等;《计 算 机 应 用 研 究》;20180531;全文 *

Also Published As

Publication number Publication date
CN110413743A (zh) 2019-11-05

Similar Documents

Publication Publication Date Title
CN110413743B (zh) 一种关键信息抽取方法、装置、设备及存储介质
CN110413746B (zh) 对用户问题进行意图识别的方法及装置
CN112069302B (zh) 会话意图识别模型的训练方法、会话意图识别方法及装置
GB2573189A (en) Generating a topic-based summary of textual content
CN112988979B (zh) 实体识别方法、装置、计算机可读介质及电子设备
CN113268609B (zh) 基于知识图谱的对话内容推荐方法、装置、设备及介质
CN111737434A (zh) 直接从对话历史和资源中生成自动化助理响应和/或动作
CN111062220B (zh) 一种基于记忆遗忘装置的端到端意图识别系统和方法
US11475225B2 (en) Method, system, electronic device and storage medium for clarification question generation
CN112131368B (zh) 对话生成方法、装置、电子设备及存储介质
CN110825849A (zh) 文本信息情感分析方法、装置、介质及电子设备
CN111782787B (zh) 问题生成模型训练方法、问题生成方法
CN111858898A (zh) 基于人工智能的文本处理方法、装置及电子设备
CN117521675A (zh) 基于大语言模型的信息处理方法、装置、设备及存储介质
CN114281957A (zh) 自然语言数据查询方法、装置、电子设备及存储介质
CN114168707A (zh) 一种面向推荐的情绪型对话方法
CN111597341A (zh) 一种文档级关系抽取方法、装置、设备及存储介质
CN113761190A (zh) 文本识别方法、装置、计算机可读介质及电子设备
Tiwari et al. A dynamic goal adapted task oriented dialogue agent
CN114239607A (zh) 一种对话答复方法及装置
CN113868451A (zh) 基于上下文级联感知的社交网络跨模态对话方法及装置
CN116662522A (zh) 问题答案推荐方法、存储介质和电子设备
CN110851580A (zh) 一种基于结构化用户属性描述的个性化任务型对话系统
CN112149426B (zh) 阅读任务处理方法及相关设备
WO2023173554A1 (zh) 坐席违规话术识别方法、装置、电子设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 230088 floor 23-24, building A5, No. 666, Wangjiang West Road, high tech Zone, Hefei, Anhui Province

Patentee after: Anhui Xunfei Medical Co.,Ltd.

Address before: 230088 18th floor, building A5, NO.666, Wangjiang West Road, high tech Zone, Hefei City, Anhui Province

Patentee before: ANHUI IFLYTEK MEDICAL INFORMATION TECHNOLOGY CO.,LTD.

CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 230000 floor 23-24, building A5, No. 666, Wangjiang West Road, high tech Zone, Hefei City, Anhui Province

Patentee after: IFLYTEK Medical Technology Co.,Ltd.

Address before: 230088 floor 23-24, building A5, No. 666, Wangjiang West Road, high tech Zone, Hefei, Anhui Province

Patentee before: Anhui Xunfei Medical Co.,Ltd.

CP03 Change of name, title or address