CN110209772A - 一种文本处理方法、装置、设备及可读存储介质 - Google Patents
一种文本处理方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN110209772A CN110209772A CN201910521610.9A CN201910521610A CN110209772A CN 110209772 A CN110209772 A CN 110209772A CN 201910521610 A CN201910521610 A CN 201910521610A CN 110209772 A CN110209772 A CN 110209772A
- Authority
- CN
- China
- Prior art keywords
- text
- key message
- node
- current
- target service
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种文本处理方法、装置、设备及可存储介质,针对任一段材料文本,在获取该材料文本所属的目标业务场景后,进一步获取材料文本中包含的与目标业务场景相关的关键信息。基于目标业务场景下,文本片段的特征信息和关键信息的特征信息,确定关键要素间的依存关系。其中,关键要素包括关键信息和材料文本中所包含的与目标业务场景相关的文本片段。显然,关键要素包括的文本片段和关键信息均为对理解材料文本有价值的信息。所以,本方案提供的文本处理方法基于文本片段的特征信息和关键信息的特征信息,所确定的关键要素间的依存关系可以表征材料文本中的各有价值信息之间的联系。
Description
技术领域
本申请涉及自然语言处理领域,更具体地说,涉及一种文本处理方法、装置、设备及可读存储介质。
背景技术
在飞速发展的信息时代,信息日益成为社会各领域中最活跃、最具有决定意义的因素。在海量数据组成的信息材料中存在大量的有价值信息,有价值信息指的是对信息材料的分析与理解具有重要作用的信息,可以理解的是,有价值信息之间存在不同程度的联系。显然,有价值信息及其之间的联系对于信息材料的分析与理解至关重要。
例如,在社会生活的各个领域,人们接触的信息材料中可能包括大量且晦涩难懂的数据,以电子产品为例,在电子产品的使用说明书中往往包括专业的工作原理、复杂的数字以及注意事项。显然,仅依靠人的阅读难以在短时间内筛选出对理解该使用说明书有帮助的有价值信息,以及有价值信息之间的联系。
综上,如何快速准确提取信息材料中有价值信息及其之间联系是本领域技术人员的技术难题。
发明内容
有鉴于此,本申请提供了一种文本处理方法装置、设备及可读存储介质,可以在材料信息中提取有价值信息,且获取有价值信息之间的依存关系。
为了实现上述目的,现提出的方案如下:
一种文本处理方法,包括:
获取材料文本所属的目标业务场景,所述材料文本由文本片段组成;
获取所述材料文本包含的与所述目标业务场景相关的关键信息;
基于所述目标业务场景下,所述文本片段的特征信息和所述关键信息的特征信息,确定关键要素间的依存关系,所述关键要素包括所述材料文本中的文本片段及所述关键信息。
优选地,本方法还包括:
基于所述关键要素间的依存关系建立语义树,所述语义树的根结点表示所述目标业务场景,子结点表示所述关键要素,两个子结点间的弧表示所述两个子结点对应的关键要素间的依存关系。
优选地,基于所述目标业务场景下,所述文本片段的特征信息和所述关键信息的特征信息,确定关键要素间的依存关系,包括:
基于当前解析环境的特征信息,确定当前的转移动作;当前解析环境c=[ST,S,K,A],其中ST用于存储所述目标业务场景,及响应转移动作的解析,暂存所确定的关键要素;S用于存储未处理的文本片段;K用于存储未处理的关键信息;A用于存储确定的存在依存关系的关键要素对;
解析当前的转移动作,以更新当前解析环境,得到更新后的解析环境,并以更新后的解析环境作为新的当前解析环境,返回执行确定当前的转移动作的步骤,直至S和K为空,且ST中不存在关键要素为止,得到最后一次更新后的解析环境中的A存储的关键要素间的依存关系。
优选地,基于当前解析环境的特征信息,确定当前的转移动作,包括:
将当前解析环境输入预置的转移动作解析模型,得到转移动作解析模型输出的当前的转移动作;
所述转移动作解析模型被配置为,接收输入的解析环境,并基于解析环境的特征信息进行处理,以生成对应的转移动作的内部状态表示。
优选地,转移动作至少包括二类,分别为:
第一类,取X中的首个对象,转移至ST中或丢弃,其中X为S或K;
第二类,确定ST中顶端的前两个对象间的依存关系,并将该前两个对象中的一个对象从ST中删除。
优选地,将当前解析环境输入预置的转移动作解析模型,得到转移动作解析模型输出的当前的转移动作,包括:
利用预置的转移动作解析模型,提取并处理当前解析环境的特征信息,以输出当前的转移动作,所述特征信息包括以下至少一项:
目标业务场景特征;
上下文特征:S中的前n1个文本片段,和/或,前n1个文本片段在材料文本中的位置;
结点特征:ST中的前n2个关键要素,和/或,前n2个关键要素的类型,和/或,前n2个关键要素在材料文本中的位置;
孩子结点特征:与ST中的前n3个关键要素存在依存关系的目标关键要素,和/或,所述目标关键要素的类型,和/或,所述目标关键要素在材料文本中的位置;
依存关系类型特征:ST中前n3个关键要素与所述目标关键要素间的依存关系的类型;
关键信息布尔特征:K中第一个关键信息是否存在于S中第一个文本片段中的真伪结果。
优选地,转移动作解析模型的训练数据的确定过程,包括:
获取材料训练文本的标注结果,所述标注结果包括材料训练文本所属的业务场景,所包含的关键要素及关键要素间的依存关系;
将所述标注结果表示为树形结构,得到标注树;
基于上述标注树,获取扩展标注树;
遍历扩展标注树;
将当前遍历到的结点到根结点路径上的结点按照在材料训练文本中的先后顺序添加到当前ST中;
将当前遍历到的结点在材料训练文本中后续的文本片段添加到当前S中;
将当前遍历到的结点在材料训练文本中后续的关键信息添加到当前K中;
将材料训练文本中位于当前遍历到的结点之前的关键要素对间的依存关系,添加到当前A中;
根据当前遍历到的结点与其父结点的弧上标注的依存关系类型,确定当前转移动作t;
由当前ST、当前S、当前K和当前A组成当前解析环境c,由当前解析环境c和当前转移动作t组成一条训练数据。
优选地,根据当前遍历到的结点与其父结点的弧上标注的依存关系类型,确定当前转移动作t,包括:
若当前遍历到的结点与其父结点的弧上标注的依存关系类型表示跳过,则确定当前转移动作t为从S或K中丢弃当前遍历到的结点;
若当前遍历到的结点与其父结点的弧上标注的依存关系类型并非表示跳过,则确定当前转移动作t为从S或K中将当前遍历到的结点转移至ST中,并确定下一时刻的转移动作t为:根据当前遍历到的结点与其父结点在材料训练文本中的先后顺序,产生二者间的依存关系,并将二者在材料训练文本中排序靠后的一项从ST中删除。
优选地,获取材料文本所属的目标业务场景,包括:
将所述材料文本输入预置的文本分类模型,得到文本分类模型输出的所述材料文本所属的目标业务场景;
其中,所述文本分类模型为,以材料训练文本为训练样本,以所述材料训练文本所属的业务场景为样本标签训练得到。
优选地,获取所述材料文本包含的与所述目标业务场景相关的关键信息,包括:
将所述材料文本输入预置的关键信息识别模型,得到关键信息识别模型输出的关键信息;其中,所述关键信息识别模型为,以属于所述目标业务场景的材料训练文本为训练样本,以所述材料训练文本中标注的与所述目标业务场景相关的关键信息为样本标签训练得到;
基于所述关键信息识别模型输出的关键信息,确定所述材料文本包含的与所述目标业务场景相关的关键信息。
优选地,基于所述关键信息识别模型输出的关键信息,确定所述材料文本包含的与所述目标业务场景相关的关键信息,包括:
将所述关键信息识别模型输出的关键信息,作为所述材料文本包含的与所述目标业务场景相关的关键信息;
或,
对所述关键信息识别模型输出的关键信息进行标准化处理,得到的标准化后的关键信息作为所述材料文本包含的与所述目标业务场景相关的关键信息。
一种文本处理装置,包括:
目标业务场景获取单元,用于获取材料文本所属的目标业务场景,所述材料文本由文本片段组成;
关键信息获取单元,用于获取所述材料文本包含的与所述目标业务场景相关的关键信息;
依存关系确定单元,用于基于所述目标业务场景下,所述文本片段的特征信息和所述关键信息的特征信息,确定关键要素间的依存关系,所述关键要素包括所述材料文本中的文本片段及所述关键信息。
优选地,本装置还包括:
语义树建立单元,用于基于所述关键要素间的依存关系建立语义树,所述语义树的根结点表示所述目标业务场景,子结点表示所述关键要素,两个子结点间的弧表示所述两个子结点对应的关键要素间的依存关系。
优选地,依存关系确定单元包括:
转移动作确定单元,用于基于当前解析环境的特征信息,确定当前的转移动作;当前解析环境c=[ST,S,K,A],其中ST用于存储所述目标业务场景,及响应转移动作的解析,暂存所确定的关键要素;S用于存储未处理的文本片段;K用于存储未处理的关键信息;A用于存储确定的存在依存关系的关键要素对;
转移动作解析单元,用于解析当前的转移动作,以更新当前解析环境,得到更新后的解析环境,并以更新后的解析环境作为新的当前解析环境,返回执行所述转移动作确定单元,直至S和K为空,且ST中不存在关键要素为止,得到最后一次更新后的解析环境中的A存储的关键要素间的依存关系。
优选地,转移动作确定单元包括:
转移动作解析模型预测单元,用于将当前解析环境输入预置的转移动作解析模型,得到转移动作解析模型输出的当前的转移动作;
所述转移动作解析模型被配置为,接收输入的解析环境,并基于解析环境的特征信息进行处理,以生成对应的转移动作的内部状态表示。
优选地,转移动作解析模型预测单元包括:
特征信息处理单元,用于利用预置的转移动作解析模型,提取并处理当前解析环境的特征信息,以输出当前的转移动作,所述特征信息包括以下至少一项:
目标业务场景特征;
上下文特征:S中的前n1个文本片段,和/或,前n1个文本片段在材料文本中的位置;
结点特征:ST中的前n2个关键要素,和/或,前n2个关键要素的类型,和/或,前n2个关键要素在材料文本中的位置;
孩子结点特征:与ST中的前n3个关键要素存在依存关系的目标关键要素,和/或,所述目标关键要素的类型,和/或,所述目标关键要素在材料文本中的位置;
依存关系类型特征:ST中前n3个关键要素与所述目标关键要素间的依存关系的类型;
关键信息布尔特征:K中第一个关键信息是否存在于S中第一个文本片段中的真伪结果。
优选地,本装置还包括:训练数据确定单元,用于确定所述转移动作解析模型的训练数据,所述训练数据确定单元包括:
标注结果获取单元,用于获取材料训练文本的标注结果,所述标注结果包括材料训练文本所属的业务场景,所包含的关键要素及关键要素间的依存关系;
标注树确定单元,用于将所述标注结果表示为树形结构,得到标注树,所述标注树的根结点为材料训练文本所属的业务场景,子结点为材料训练文本所包含的关键要素,两个子结点间的弧上标注有所述两个子结点对应的关键要素间的依存关系,同一级的各子结点按照对应的关键要素在材料训练文本中的先后顺序自左向右排序;
标注树扩展单元,用于扩展所述标注树得到扩展标注树,包括:将材料训练文本包含的文本片段中不属于关键要素的每一文本片段以新增结点形式添加到所述标注树中,针对任一新增结点,若标注树中存在排序在其之前的结点,则将该新增结点与标注树中排序在其之前的最上层非根结点相连,否则,将其与根结点相连,并在该新增结点与其父结点的弧上标注表示跳过类型的依存关系;
扩展标注树遍历单元,用于按照从左到右深度优先的方式遍历扩展标注树,将当前遍历到的结点到根结点路径上的结点按照在材料训练文本中的先后顺序添加到当前ST中,且若所述路径上的结点包含表示关键信息的第一结点和表示所述关键信息所在的文本片段的第二结点时,将所述第一结点排在所述第二结点之后;
S序列更新单元,用于将当前遍历到的结点在材料训练文本中后续的文本片段添加到当前S中;
K序列更新单元,用于将当前遍历到的结点在材料训练文本中后续的关键信息添加到当前K中;
A集合更新单元,用于将材料训练文本中位于当前遍历到的结点之前的关键要素对间的依存关系,添加到当前A中;
当前t确定单元,用于根据当前遍历到的结点与其父结点的弧上标注的依存关系类型,确定当前转移动作t;
训练数据组合单元,用于由当前ST、当前S、当前K和当前A组成当前解析环境c,由当前解析环境c和当前转移动作t组成一条训练数据。
优选地,当前t确定单元包括:
第一当前t确定子单元,用于若当前遍历到的结点与其父结点的弧上标注的依存关系类型表示跳过,则确定当前转移动作t为从S或K中丢弃当前遍历到的结点;
第二当前t确定子单元,用于若当前遍历到的结点与其父结点的弧上标注的依存关系类型并非表示跳过,则确定当前转移动作t为从S或K中将当前遍历到的结点转移至ST中,并确定下一时刻的转移动作t为:根据当前遍历到的结点与其父结点在材料训练文本中的先后顺序,产生二者间的依存关系,并将二者在材料训练文本中排序靠后的一项从ST中删除。
优选地,目标业务场景获取单元包括:
文本分类模型预测单元,用于将所述材料文本输入预置的文本分类模型,得到文本分类模型输出的所述材料文本所属的目标业务场景;
其中,所述文本分类模型为,以材料训练文本为训练样本,以所述材料训练文本所属的业务场景为样本标签训练得到。
优选地,关键信息获取单元包括:
关键信息识别模型预测单元,用于将所述材料文本输入预置的关键信息识别模型,得到关键信息识别模型输出的关键信息;其中,所述关键信息识别模型为,以属于所述目标业务场景的材料训练文本为训练样本,以所述材料训练文本中标注的与所述目标业务场景相关的关键信息为样本标签训练得到;
关键信息确定单元,用于基于所述关键信息识别模型输出的关键信息,确定所述材料文本包含的与所述目标业务场景相关的关键信息。
优选地,关键信息确定单元包括:
第一关键信息确定子单元,用于将所述关键信息识别模型输出的关键信息,作为所述材料文本包含的与所述目标业务场景相关的关键信息;
或,
第二关键信息确定子单元,用于对所述关键信息识别模型输出的关键信息进行标准化处理,得到的标准化后的关键信息作为所述材料文本包含的与所述目标业务场景相关的关键信息。
一种文本处理设备,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如上所述的文本处理方法的各个步骤。
一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的文本处理方法的各个步骤。
从上述的技术方案可以看出,本申请实施例提供的文本处理方法,针对任一段材料文本,在获取该材料文本所属的目标业务场景后,进一步获取材料文本中包含的与目标业务场景相关的关键信息。基于目标业务场景下,文本片段的特征信息和关键信息的特征信息,确定关键要素间的依存关系。其中,关键要素包括关键信息和材料文本中所包含的与目标业务场景相关的文本片段。显然,关键要素包括的文本片段和关键信息均为对理解材料文本有价值的信息。所以,本方案提供的文本处理方法基于文本片段的特征信息和关键信息的特征信息,所确定的关键要素间的依存关系可以表征材料文本中的各有价值信息之间的联系。综上,本方案可以实现从材料文本中,提取有价值信息及其之间的联系的目的,对于分析理解材料文本产生积极作用。
进一步,由于本方案在基于材料文本所属的目标业务场景的前提下提取有价值信息,且同时考虑有价值信息之间的依存关系,所以提取的有价值信息及其之间的联系准确性高,且方法实施的鲁棒性好。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例公开的一种文本处理方法流程图;
图2示例了一种语义树结构示意图;
图3示例了一种转移动作解析模型结构示意图;
图4示例了一种材料训练文本标注示意图;
图5示例了一种扩展标注树结构示意图;
图6为本申请实施例公开的一种文本处理装置结构示意图;
图7为本申请实施例公开的一种文本处理设备的硬件结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请提供的文本处理方法,可以适用于需要对材料文本进行有价值信息提取并进一步获取有价值信息之间联系的场景。
例如,对于产品使用说明书,需要从中提取有价值的信息及其之间的联系,以帮助用户更好的理解该产品的使用方法及注意事项。再例如,在智能客服领域中,需要从客户输入的信息段落中提取有价值的信息及其之间的联系,以帮助智能客服更好的理解客户诉求。
进一步的,本申请方法可以应用于智能设备,例如电脑、平板或智能手机,或者可以应用于预设有文本处理系统的服务器。接下来,结合附图1对本申请提供的文本处理方法进行介绍,图1示例了一种文本处理方法流程图,该方法详细包括:
步骤S100、获取材料文本所属的目标业务场景。
具体地,材料文本可以包括电子文档中的文本信息材料,或者由其他形式信息材料转换成的文本信息材料。例如,在智能客服领域中,该材料文本可以包括由客户输入的语音信息材料转换成的文本信息材料。其中,材料文本由文本片段组成。文本片段的划分方法可以包括多种,例如可以按词语、短语或句子对材料文本进行划分,将材料文本划分为若干个文本片段。
可以理解的是,针对任一材料文本,可以根据其内容所涉及的话题领域确定该材料文本所属的场景,并将其定义为目标业务场景。例如,某材料文本为“就是以后如果您中途急需用钱的时候,您可以通过保单贷款的方式申请,但请您注意这个贷款,它是有利息的,而且审批也是需要一定条件和时间的要求,具体贷款情况,请您于公司具体发布内容为准。”上述材料文本中的内容所涉及的是金融贷款的话题领域,由此进一步可以定义该材料文本的目标业务场景为“保单贷款”。
需要说明的是,材料文本所属的目标业务场景,对于后续确定材料文本中所包含的关键信息有指导作用,不同目标业务场景下,关键信息的种类也不同。如,对于“10万”这一信息词,在“保单贷款”业务场景下,可能是贷款金额,因此可以将其视为关键信息,而在其它业务场景下可能就是一个非关键信息。
步骤S110、获取所述材料文本包含的与所述目标业务场景相关的关键信息。
具体地,材料文本由文本片段组成,其中每一文本片段可以包括一个或多个信息片段,信息片段可以包括词语、短语或短句。可以理解的是,由于自然语言的复杂性,材料文本可能包括与目标业务场景无关的信息片段,例如“且”、“但是”或“无论”等虚词,也可能包括与目标业务相关的信息片段,例如与目标业务场景相关的“数字”或“名词”等实词。本步骤中,将材料文本包含的与其目标业务场景相关的信息片段定义为关键信息,关键信息可以包括关键短语、关键词或关键字。
举例来讲,假设在步骤S100中提及的材料文本中,将“而且审批需要一定条件和时间的要求”作为一个文本片段。则,该文本片段中可以包括“而且”、“审批”、“需要”、“一定条件”、“时间”、或“的要求”等信息片段。其中,上述信息片段中的“审批”、“一定条件”、“时间”与该材料文本所属的目标业务场景“保单贷款”相关,则将该三个信息片段作为材料文本所包含的与目标业务场景相关的关键信息。
步骤S120,基于所述目标业务场景下,所述文本片段的特征信息和所述关键信息的特征信息,确定关键要素间的依存关系。
具体地,材料文本由多个文本片段组成,其中包括一个或多个与该材料文本所属目标业务场景相关的文本片段。并且由上可知,关键信息包括材料文本所包含的所有与目标业务场景相关的信息片段。所以将与材料文本所属目标业务场景相关的文本片段以及所有关键信息定义为关键要素。
可以理解的是,关键要素都是与目标业务场景相关的文本信息,其中,各个关键要素之间存在依存关系。例如,材料文本为“就是说,您年攒金额最高十倍,最高50万,给您发放贷款额度,并且做一个小额贷款的项目”。其中,可以将“您年攒金额最高十倍”划分为一个文本片段,其中的“年赞金额”“十倍”可以定义为两个关键信息。显然,该两个关键信息存在于该文本片段中,且关键信息之间存在指向关系。
进一步的,由于特征信息可以表征关键要素的特征,所以本步骤可以基于材料文本包含的文本片段的特征信息以及关键信息的特征信息,确定关键要素间的依存关系。
从上述的技术方案可以看出,本申请实施例提供的文本处理方法,针对任一段材料文本,在获取该材料文本所属的目标业务场景后,进一步获取材料文本中包含的与目标业务场景相关的关键信息。基于目标业务场景下,文本片段的特征信息和关键信息的特征信息,确定关键要素间的依存关系。其中,关键要素包括关键信息和材料文本中所包含的与目标业务场景相关的文本片段。显然,关键要素包括的文本片段和关键信息均为对理解材料文本有价值的信息。所以,本方案提供的文本处理方法基于文本片段的特征信息和关键信息的特征信息,所确定的关键要素间的依存关系可以表征材料文本中的各有价值信息之间的联系。综上,本方案可以实现从材料文本中,提取有价值信息及其之间的联系的目的,对于分析理解材料文本产生积极作用。
进一步,由于本方案在基于材料文本所属的目标业务场景的前提下提取有价值信息,且同时考虑有价值信息之间的依存关系,所以提取的有价值信息及其之间的联系准确性高,且方法实施的鲁棒性好。
接下来提出本申请实施例对上述步骤S100,获取材料文本所属的目标业务场景的具体实施方式进行介绍。
一种可选的方式下,可以通过机器学习模型来实现步骤S100。具体地,可以将材料文本输入预置的文本分类模型,得到文本分类模型输出的材料文本所属的目标业务场景。
其中,文本分类模型为预先训练好的分类模型,可选地,该文本分类模型可以包括CNN(Convolutional Neural Networks,卷积神经网络)模型、RNN(Recurrent NeuralNetwork,循环神经网络)或KNN(k-Nearest Neighbor,k近邻)模型。该分类模型的训练过程为:以材料训练文本为训练样本,以材料训练文本所属的业务场景为样本标签训练得到。
其中,材料训练样本包括已知业务场景的材料文本。可选地,可以预先对该材料文本进行标注。可选的一种标注方法可以包括:在材料文本的首端或尾端添加标注符号,并通过标注符号对业务场景进行标注。例如,训练样本D的内容为“这个钱您是可以申请使用的,再扣除各项欠款余额哈,您合同现金价值的80%,您可以拿去用。比如说您咱们这5年,您攒了个10万块钱了,那么说您到时候您可以用嗯拿走8万去用。那您用这个钱的期间,如果说咱们客户发生了风险,照样给您理赔,您保多少赔多少,对您什么时候用方便6个月之内的话,就是放回来就可以了”。该材料训练样本所属的业务场景为“保单贷款”,则可以在该材料训练样本的首端添加标注符号及业务场景,具体可以表示为“##保单贷款##这个钱您是可以申请使用的,再扣除各项欠款余额哈,您合同现金价值的80%,您可以拿去用。比如说您咱们这5年,您攒了个10万块钱了,那么说您到时候您可以用嗯拿走8万去用。那您用这个钱的期间,如果说咱们客户发生了风险,照样给您理赔,您保多少赔多少,对您什么时候用方便6个月之内的话,就是放回来就可以了”。其中“保单贷款”即为该材料训练样本的样本标签。
进一步,以该材料训练样本为输入,且以样本标签作为目标输出训练分类模型,得到训练好的文本分类模型。由于,训练过程以材料训练样本所属的业务场景作为目标输出,所以将任一材料文本输入至上述文本分类模型,可以将其输出作为该材料文本所属的目标业务场景。
需要说明的是,对训练样本进行业务场景的标注过程中,如果该段训练样本没有所属业务场景,则添加标注可以作为训练负例,对其添加标注符号“NULL”。
接下来,以文本分类模型为CNN模型为例,对获取材料文本所属的目标业务场景的具体过程进行说明。其中,CNN模型可以包括四个神经网络层,分别为输入层、卷积层、池化层和输出层。以下分别进行介绍:
输入层:该CNN模型的输入是材料文本,该材料文本由多个文本片段组成,每一文本片段包括一个或多个词。首先,可以将材料文本记为其中h1表示该材料文本共包括h1个词,该h1个词按序排列,即表示该材料文本中由前至后第r1个词。进一步,将上述输入至Embedding(词向量映射)层,将其映射为词向量,记为其中,表示经映射后的词向量,demb表示词向量的维度。
卷积层:卷积层包含多个尺寸的卷积核,优选地,卷积核尺寸可以为2、3或4。本实施例将卷积核记为其中,α表示卷积核窗口大小,dconv表示卷积核数量。上述经卷积层之后,可以得到h2个向量,记为其中h2=h1-α+1,
池化层:池化层用于特征选择,池化方式可以包括最大池化或平均池化。本申请实施例以最大池化为例进行说明。卷积层的输出经最大池化之后,可以得到单个向量其中n且 即为输入材料文本的特征向量。
输出层:池化层的输出再经非线性变换得到输出层的输出,记为o=softmax(vW°+b°)。其中,Q表示业务场景数。oq(0≤q<Q-1)表示当前输入的材料文本属于业务场景q的概率。进一步,取概率最大的为该材料文本所属的目标业务场景。
接下来以金融领域的一段材料文本为例进行说明:
该材料文本为由语音信息转换得到的一段文本信息“就是以后如果您中途急需用钱的时候,您可以通过保单贷款的方式申请,但请您注意这个贷款,它是有利息的,而且审批也是需要一定条件和时间的要求,具体贷款情况,请您于公司具体发布内容为准”。将该材料文本输入至上述训练好的文本分类模型,经过输入层、卷积层、池化层和输出层,可以输出该材料文本所属的目标业务场景为“保单贷款”。
接下来提出本申请实施例对上述步骤S110,获取材料文本包含的与目标业务场景相关的关键信息的过程进行介绍。
一种可选的方式下,可以通过机器学习模型来实现步骤S110。具体可以包括:
S1、将材料文本输入预置的关键信息识别模型,得到关键信息识别模型输出的关键信息。
具体地,关键信息识别模型为,以属于目标业务场景的材料训练文本为训练样本,以材料训练文本中标注的与目标业务场景相关的关键信息为样本标签训练得到。
其中,关键信息识别模型可以包括序列化标注模型,例如BLSTM-CRF(bidirectional long short-term memory-conditional random field algorithm,双向长短时记忆网络-条件随机场算法)模型。材料文本的目标业务场景由上述步骤S100获取,由于目标业务场景反映该材料文本涉及的话题领域,可以理解的是,同属于一个业务场景的各材料文本中包括的关键信息相似。所以在训练关键信息识别模型时,可以选择属于目标业务场景的材料训练文本为训练样本。训练过程可以包括:
首先,对训练样本进行关键信息的标注,其中标注方法可以包括多种。本申请实施例对训练样本中包括的关键信息添加标注符号,并对其所属的关键信息类型进行标注。
例如,以上述训练样本D的部分内容的标注过程为例,待标注训练样本内容为“...您合同现金价值的80%,您可以拿去用。比如说您咱们这5年,您攒了个10万块钱了,那么说您到时候您可以用嗯拿走8万去用…对您什么时候用方便6个月之内的话,就是放回来就可以了”。对上述内容进行关键信息标注以后,可以得到标注后的训练样本“您合同现金价值的<倍率>80%</倍率>,您可以拿去用。比如说您咱们这<时间>5年</时间>,您攒了个<金额>10万</金额>块钱了,那么说您到时候您可以用嗯拿走<金额>8万</金额>去用…对您什么时候用方便<时间>6个月</时间>之内的话,就是放回来就可以了”。其中,关键信息可以包括“80%”、“5年”、“10万”、“8万”、“6个月”,其所属的关键信息类型分别为标注的“倍率”、“时间”、“金额”、“金额”、“时间”。综上,将标注的关键信息识别模型训练的样本标签。
需要说明的是,本步骤对关键信息进行标注时,可以标注关键信息所属的大概类型,或标注关键信息所属的具体类型。例如,关键信息“80%”的大概类型为“倍率”,其具体类型可以为“百分比”。
进一步地,将标注好的训练样本输入至序列化标注模型,并以标注的关键信息作为目标输出,对模型进行训练,得到训练好的关键信息识别模型。
可以理解的是,将材料文本输入至上述训练好的关键信息识别模型可以输出该材料文本中的关键信息。且,可以将其标注的关键信息类型输出。例如,输入的材料文本为“就是说您年攒金额最高十倍最高50万给您发放贷款额度,做一个小额贷款”。则将其输入至关键信息识别模型,可以得到输出为{“倍率”:“十”,“贷款额度”:“50万”,“专业名词”:“小额贷款”},其中,“十”、“50万”、“小额贷款”为上述材料文本中包含的与目标业务场景相关的关键信息,所属的关键信息类型分别为“倍率”、“贷款额度”、“专业名词”。
可以理解的是,因为关键信息的位置对于该材料文本的分析与理解也具有重要作用,所以进一步,关键信息识别模型还可以输出每一关键信息的位置信息。例如,输出关键信息所在的文本片段的序列编号。
S2、基于关键信息识别模型输出的关键信息,确定材料文本包含的与目标业务场景相关的关键信息。
具体地,由于关键信息识别模型为,以属于目标业务场景的材料训练文本为训练样本,以材料训练文本中标注的与目标业务场景相关的关键信息为样本标签训练得到。所以可以直接将关键信息识别模型输出的关键信息,作为材料文本包含的与目标业务场景相关的关键信息。
可以理解的是,由于语言的复杂性,关键信息识别模型输出的关键信息可能不是其标准形式,所以本步骤可以进一步将上述关键信息识别模型输出的关键信息进行标准化处理,将得到的标准化后的关键信息作为所述材料文本包含的与其目标业务场景相关的关键信息。
例如,将上述关键信息识别模型的输出{“倍率”:“十”,“贷款额度”:“50万”,“专业名词”:“小额贷款”}进行标准化处理后,得到标准化后的关键信息包括{“倍率”:“10”,“贷款额度”:“500000”,“专业名词”:“小额信用贷款”}。
可选地,本步骤获取材料文本中与目标业务场景相关的关键信息的方法还可以包括基于规则的方法或者基于浅层语义匹配的方法等。本申请实施例不做赘述。
可以理解的是,材料文本由文本片段组成,其中包括与目标业务场景相关的文本片段。进一步可以将与目标业务场景相关的文本片段以及关键信息定义为关键要素。显然,关键要素均与目标业务场景相关,所以各个关键要素间可能存在依存关系。
基于此,本申请实施例对上述步骤S120,基于目标业务场景下,文本片段的特征信息和关键信息的特征信息,确定关键要素间的依存关系的过程进行介绍。具体可以包括:
A1、基于当前解析环境的特征信息,确定当前的转移动作。
具体地,首先确定当前解析环境c=[ST,S,K,A]。
其中,ST为缓存栈,可以用于存储材料文本所属的目标业务场景,及响应转移动作的解析,暂存所确定的关键要素。初始状态时,ST包含目标业务场景,可以记为ST=[ROOT-目标业务场景]。
S为未处理文本片段序列,可以用于存储未处理的文本片段。初始状态时,S包含材料文本中全部的文本片段,且文本片段按照顺序排列,记为S=(s1,s2,...,si,...sn)。其中,该材料文本的文本片段数为n,si表示材料文本中的第i个文本片段,1≤i≤n。
K为未处理关键信息序列,可以用于存储未处理的关键信息。初始状态时,K包含材料文本中的所有关键信息,且关键信息按照顺序排列,记为K=(k1,k2,...,kj,...km)。其中,该材料文本包含的关键信息数为m,kj表示材料文本中包含的第j个关键信息,1≤j≤m。
A为依存关系集合,可以用于存储确定的存在依存关系的关键要素对。初始状态时,A为空集,记为A=Φ。
可以理解的是,上述当前解析环境c=[ST,S,K,A]在解析过程的不同时刻,可能具有不同的特征,该特征可以利用特征信息表征。其中,特征信息可以包括当前解析环境中的ST、S、K、A包含对象的对象特征或对象间的关系特征。
以ST为例进行说明,初始时刻ST=[ROOT-目标业务场景],其中仅包含目标业务场景,其特征信息只表征其目标业务场景的类型。在解析过程中某一时刻,ST中可能还包括已经处理的文本片段序列或已处理的关键信息序列中的一个或多个,例如ST=[ROOT-目标业务场景,s3,k1]。此时其特征信息还可以表征当前ST中包括的对象s3或k1的对象特征以及s3和k1之间的关系特征。
可选地,本申请实施例将基于当前解析环境转换为下一时刻的解析环境的过程动作定义为转移动作。显然,转移动作可以包括多种,且根据当前解析环境的特征信息不同,转移动作也可能不同。所以本步骤进一步获取当前解析环境的特征信息,并基于特征信息,确定当前转移动作。
A2、解析当前的转移动作,以更新当前解析环境,得到更新后的解析环境。
具体地,当前解析环境为c=[ST,S,K,A],ST、S、K及A中均为动态更新。即每确定一个转移动作,该转移动作将会触发一次当前解析环境的更新,ST、S、K及A中包括的对象基于转移动作发生相应的变化。其中变化形式根据转移动作的不同可能包括:丢弃对象,转移对象,或添加对象。
例如,假设将当前解析环境记为c=[ST,S,K,A],其中ST=[ROOT,s3,k1],S=[s4,s5,...,s13],K=[k2,k3,k4],A=Φ。当步骤A1获取当前解析环境的转移动作后,本步骤获取该转移动作的解析结果为:ST中的两个对象s3和k1存在依存关系ξ,并将该依存关系ξ保存至A中,且将k1从ST中删除。所以,根据上述转移动作的解析结果,可以更新当前解析环境c=[ST,S,K,A]为c'=[ST',S',K',A'],其中ST'=[ROOT,s3],S'=[s4,s5,...,s13],K'=[k2,k3,k4],A'=[ξ]。
进一步,以更新后的解析环境作为新的当前解析环境,返回执行A1确定当前的转移动作的步骤,直至S和K为空,且ST中不存在关键要素为止,得到最后一次更新后的解析环境中的A存储的关键要素间的依存关系。
例如,将上述更新后的c'=[ST',S',K',A']作为当前解析环境c=[ST,S,K,A],并对其进行步骤A1中,确定当前的转移动作的步骤。重复上述过程直至更新过后,当前解析环境中的ST=[ROOT],S=Φ,K=Φ时,表明所有的文本片段和关键信息都已经处理完毕,因此可以停止更新。此时A中储存材料文本中包括的所有关键要素之间的依存关系。
接下来进一步对上述步骤A1中提及的转移动作的种类进行介绍。由上可知,转移动作根据当前解析动作的特征信息的不同可以包括多种。可选的,本申请实施例介绍其中至少包括的两类。
第一类,取X中的首个对象,转移至ST中或丢弃,其中X为S或K。
具体地,由上可知S为未处理文本片段序列,该序列包括当前时刻未处理的材料文本中的文本片段。其中,S中的首个对象表示在当前时刻,所有未处理的文本片段中的第一个文本片段,初始状态时,S中的首个对象s1表示材料文本中的第一个文本片段。K为未处理关键信息序列,该序列包括当前时刻未处理的材料文本中的关键信息。其中,K中的首个对象表示在当前时刻,所有未处理的关键信息中的第一个,初始状态时,K中的首个对象k1表示材料文本中的第一个关键信息。
基于此,该第一类转移动作可以包括以下四种表示方式:
第一种、将转移动作定义为SKIP_S,表示将S中的首个对象丢弃。一般情况下,该首个对象为与目标业务场景无关的文本片段,可以理解的是,该文本片段不是该材料文本中包含的关键要素,所以将其丢弃。
第二种、将转移动作定义为SHIFT_S,表示将S中的首个对象转移至ST中。一般情况下,该首个对象为与目标业务场景相关的文本片段,可以理解的是,该文本片段是该材料文本中包含的关键要素,所以将其转移至ST中暂存。
第三种、将转移动作定义为SHIFT_K,表示将K中的首个对象转移至ST中。可以理解的是,该首个对象为与目标业务场景相关的关键信息,可以理解的是,该关键信息是材料文本中包含的关键要素,所以将其转移至ST中暂存。
第四种、将转移动作定义为SKIP_K,表示将K中的首个对象丢弃。一般情况下,该首个对象为与目标业务场景无关的关键信息。可以理解的是,该关键信息不是该材料文本中包含的关键要素,所以将其丢弃。
第二类,确定ST中顶端的前两个对象间的依存关系,并将该前两个对象中的一个对象从ST中删除。
具体地,由上可知ST为缓存栈,其底端对象为材料文本所属的目标业务场景,顶端对象为暂存的由S或K转移的关键要素。将最后转移至ST中的对象定义为顶端第一个对象st1,以此类推。例如,在某一时刻ST=[ROOT-目标业务场景,s3,k1]。其中,ST顶端前两个对象分别为st1=k1、st2=s3。
可以理解的是,ST中暂存的所有对象均为与目标业务场景相关的关键要素,所以对象间可能存在依存关系。其中,依存关系可以包括关键要素之间的指向关系。例如,关键要素“80%”和“50万”之间的依存关系可能为“80%”是价值总额“50万”的百分比。当确定两个对象之间的依存关系后,转移动作还包括:将其中一个对象从ST中删除,该被删除的对象可能是顶端第一个对象,也可能是顶端第二个对象。
具体地,将依存关系表示为LEFT_ARC(L)或RIGHT_ARC(L),其含义如下:
LEFT_ARC(L):表示顶端第一个对象st1指向顶端第二个对象st2的依存关系。
RIGHT_ARC(L):表示顶端第二个对象st2指向顶端第一个对象st1的依存关系。
其中,L表示依存关系的种类,其依存关系的种类可以包括多种。一般情况下,依存关系的种类可以包括(Ns+Nk+2)种。其中,Ns表示目标业务场景下,关键要素中包括的文本片段的种类数,Nk表示关键信息的种类数。可选地,另外两种依存关系包括系统预设的保留种类,定义为cat和sub。其中,cat()代表两个对象的依存关系为合并,sub()代表两个对象的依存关系为包括。当然,还可以根据需求而设定其它数量和类型的系统预设的依存关系,则相应的依存关系的种类可以包括(Ns+Nk+系统预设依存关系的数量)种。
进一步,当确定当前解析环境中ST顶端前两个对象的依存关系为LEFT_ARC(L)后,转移动作还包括将第二个对象st2从ST中删除。当确定当前解析环境中ST顶端前两个对象的依存关系为RIGHT_ARC(L)后,转移动作还包括将第一个对象st1从ST中删除。
接下来以材料文本D为例,对上述实施例介绍的文本处理方法进行具体说明,假设材料文本D为“这个钱您是可以申请使用的_s1,再扣除各项欠款余额哈_s2,您合同现金价值的80%_s3,您可以拿去用_s4。比如说您咱们这5年_s5,您攒了个10万块钱了_s6,那么说您到时候您可以用嗯拿走8万去用_s7。那您用这个钱的期间_s8,如果说咱们客户发生了风险_s9,照样给您理赔_s10,您保多少赔多少_s11,对您什么时候用方便6个月之内的话_s12,就是放回来就可以了_s13”。需要说明的是,s1、s2、…、s13表示材料文本包含的文本片段的序列编号。
针对上述材料文本D,步骤S100可以获取该材料文本的目标业务场景为“保单贷款”,步骤S110可以获取该材料文本包含的与“保单贷款”相关的4个关键信息,分别为“80%”“10万”“8万”“6个月”,分别记为k1、k2、k3、k4。基于此,可以确定初始时刻的当前解析环境为c0=[ST0,S0,K0,A0],其中,ST0=[ROOT],S0=[s1,s2,...,s13],K0=[k1,k2,k3,k4],A0=Φ。
参见表1,表1为依存关系确定过程示意表,其中示出了当前解析环境的部分更新过程,如下:
表1
综上,基于本申请提供的文本处理方法对上述材料文本D进行处理后,可以得到该材料文本中的关键要素的依存关系集合A,A=[K_百分比(s3,k1),cat(s3,s4),K_所攒金额(s6,k2),sub(s3,s6),K_取用金额(s7,k3),sub(s3,s7),K_时限(s12,k4),S_半年返还本息(ROOT,s12),S_保单现金价值(ROOT,s3)]。
基于上述各实施例,可以确定材料文本中包含的关键要素,以及各关键要素之间的依存关系。可以理解的是,关键要素及其依存关系可以有多种表现形式,例如,上述实施例中的A为依存关系集合表示。可选的另一种表现形式为语义树表示。接下来本申请实施例对将关键要素及其之间的依存关系以语义树形式表示的过程进行介绍。
具体地,基于关键要素间的依存关系建立语义树,语义树包括根结点、子结点以及弧。其中,语义树的根结点可以表示目标业务场景,子结点可以表示材料文本中的各关键要素,两个子结点间的弧可以表示该两个子结点对应的关键要素间的依存关系。
可选地,可以根据依存关系集合A转换得到语义树,以上述材料文本D的关键要素依存关系集合A=[K_百分比(s3,k1),cat(s3,s4),K_所攒金额(s6,k2),sub(s3,s6),K_取用金额(s7,k3),sub(s3,s7),K_时限(s12,k 4),S_半年返还本息(ROOT,s12),S_保单现金价值(ROOT,s3)]为例,图2示例了由上述A转换得到的语义树。
如图2所示,根结点为材料文本D的目标业务场景即为“保单贷款”,子结点分别为关键要素依存关系集合A中包括的各个关键要素。可选地,两个子结点间的弧上标注有两个子结点对应的关键要素间的依存关系。如图2所示,子结点分别为关键元素s3和s4,连接s3和s4的弧上标注有该两个关键元素的依存关系,即sub。
可选地,同一级的各子结点按照对应的关键要素在材料训练文本中的先后顺序自左向右排序,并且,可以将关键信息的具体内容直接作为子结点。如图2所示,将关键信息k3作为子结点,直接将其信息内容“8万”标注在语义树上。
本申请实施例对上述步骤A1,基于当前解析环境的特征信息,确定当前的转移动作的实施过程进行介绍。
一种可选的方式下,可以通过机器学习模型来实现步骤A1,具体可以包括:
将当前解析环境输入预置的转移动作解析模型,并利用该转移动作解析模型提取并处理当前解析环境的特征信息,得到转移动作解析模型输出的当前的转移动作。
其中,转移动作解析模型可以包括LSTM(Long Short-TermMemory,长短期记忆网络)模型或CNN模型等分类模型。该模型被配置为,接收输入的解析环境,并基于解析环境的特征信息进行处理,以生成对应的转移动作的内部状态表示。其中,转移动作的种类可以包括多种,可选地,可以根据依存关系的种类对转移动作进行分类。
具体地,因为针对同一依存关系类型L,根据关键元素指向方向不同可能包括两种依存关系,即LEFT_ARC(L)或RIGHT_ARC(L),进一步可能对应两种转移动作。且因为系统预设的依存关系种类cat和sub不存在指向方向,所以转移动作的种类可以包括(Ns+Nk)×2+2种。当然,当设定其它数量和类型的系统预设的依存关系时,可以进一步考虑该依存关系是否存在指向方向。
可选地,特征信息表征当前解析环境c=[ST,S,K,A]中的集合ST,S,K,A所包括对象的对象特征以及对象间的关系特征。其中,特征信息可以包括很多种,下面介绍其中可选的6种类型的特征信息,并结合附图3对可选的一种基于转移动作解析模型对特征信息进行提取与处理的方法进行说明。如下:
目标业务场景特征:该特征信息可以表征材料文本所属的目标业务场景。可选地,目标业务场景特征可以从ST中底端对象ROOT提取,并进一步将其通过embedding层进行处理得到该目标业务场景特征的向量表示c1。如图3所示,转移动作解析模型提取目标业务场景特征后,将其通过目标业务场景embedding层得到向量表示c1。
上下文特征:可以直接从S中获取前n1个文本片段作为上下文特征。其中n1可以取1、2或3,优选地,n1=3,记为fs={sn1,sn2,sn3}。该特征用于判断发生在sn1上的转移动作,当S中的对象不足3个时,则用NULL表示。进一步将其通过embedding层进行处理,得到由该上下文特征包括的词向量拼接而成的向量表示。
另外,还可以进一步获取前n1个文本片段在材料文本中的位置信息,可选地,该位置信息可以由该n1个文本片段的序列编号获取。将位置信息通过embedding层进行处理,得到位置信息的向量表示。由于该向量表示的维度与上述上下文特征信息向量表示的维度相同,所以将其与上下文特征的向量表示按位相加,得到最终的上下文特征的向量表示c2。
结点特征:可以直接从ST中获取前n2个关键要素作为结点特征,其中n2可以取1、2或3,优选地,n2=3,记为fst={stn1,stn2,stn3}。进一步将其通过embedding层进行处理,得到由该结点特征包括的词向量拼接而成的向量表示。
可以理解的是,关键要素包括文本片段或关键信息。所以为了区分不同类型的关键要素,还可以获取结点类型特征,可选地,当结点为关键信息时,其类型用关键信息类型代替。进一步,将结点类型特征通过embedding层进行处理,得到结点类型特征的向量表示。另外,还可以进一步获取前n2个关键要素在材料文本中的位置信息,可选地,该位置信息可以由该n2个关键要素的序列编号获取。将结点位置信息通过embedding层进行处理,得到结点位置信息的向量表示。
由于结点类型特征的向量表示、结点位置的向量表示和结点特征的向量表示的维度相同,所以将其按位相加,得到最终的结点特征的向量表示c3。
孩子结点特征:获取与ST中的前n3个关键要素存在依存关系的目标关键要素。其中n3可以取1、2或3,优选地,n3=2。进一步将其通过embedding层进行处理,得到由该孩子结点特征包括的词向量拼接而成的向量表示。
可以理解的是,目标关键要素包括文本片段或关键信息。所以为了区分不同类型的目标关键要素,还可以获取孩子结点类型特征。可选地,当孩子结点为关键信息时,其类型用关键信息类型代替。进一步,将孩子结点类型特征通过embedding层进行处理,得到孩子结点类型特征的向量表示。另外,还可以进一步获取目标关键要素在材料文本中的位置信息,可选地,该位置信息可以由该目标关键要素的序列编号获取。将孩子结点位置信息通过embedding层进行处理,得到孩子结点位置信息的向量表示。
由于孩子结点类型特征的向量表示、孩子结点位置的向量表示和孩子结点特征的向量表示的维度相同,所以将其按位相加,得到最终的孩子结点特征的向量表示c4。
需要说明的是,对于上述上下文特征、结点特征或孩子结点特征的处理过程,为了区分特征信息的边界,可以在特征信息中的各关键要素之间插入“SEP”符号。可选地,上下文特征、结点特征或孩子结点特征的处理过程可以共用一个处理模块,如图3所示,该模块可以包括词embedding层、位置embedding层和类型embedding层,可以分别用于提取上下文特征、结点特征或孩子结点特征的词向量表示、位置向量表示和类型向量表示。进一步将该模块的输出利用LSTM模型按位相加,得到最终的上下文特征、结点特征或孩子结点特征的向量表示c2、c3、c4。
依存关系类型特征:可以直接从当前A中获取ST中前n3个关键要素与目标关键要素间的依存关系的类型。其中,依存关系可以包括多个,所以进一步将所有依存关系通过embedding层进行处理,得到由所有依存关系的向量表示拼接而成的最终的依存关系类型特征的向量表示c5。如图3所示,转移动作解析模型提取依存关系类型特征后,将其通过依存关系类型特征embedding层得到向量表示c5。
关键信息布尔特征:获取K中第一个关键信息是否存在于S中第一个文本片段中的真伪结果。可选的一种真伪结果获取方法包括:查询K中第一个关键信息的位置信息和S中第一个文本片段序列位置信息是否一致,若一致,则结果为真。进一步将该真伪结果通过embedding层进行处理,得到关键信息布尔特征的向量表示c6。如图3所示,转移动作解析模型提取关键信息布尔特征后,将其通过关键信息布尔特征embedding层得到向量表示c6。
可选地,本步骤中可以获取上述任一种或多种特征信息并进行处理。例如,如图3所示,可以将上述6种特征信息的向量表示拼接,获取当前解析环境c=[ST,S,K,A]的特征信息向量表示:c’={c1,c2,c3,c4,c5,c6}。进一步,转移动作解析模型可以根据c’,解析得到每一个转移动作的概率PC',最后取概率最大转移动作作为当前时刻的转移动作。
接下来提出本申请实施例对上述提及的转移动作解析模型的训练数据的确定过程进行介绍。由上可知,转移动作解析模型的输入为材料文本的当前解析环境,即c=[ST,S,K,A],输出数据为当前时刻的转移动作t。所以,转移动作解析模型的训练数据可以包括:当前解析环境及其对应的转移动作。可选地,选择材料训练文本对该转移动作解析模型进行训练,其中训练材料文本为已知其业务场景以及关键要素的材料文本。本申请实施例以上述材料文本D作为训练材料文本进行介绍。
具体地,训练数据的确定过程具体可以包括:
B1、获取材料训练文本的标注结果,标注结果包括材料训练文本所属的业务场景,以及所包含的关键要素及关键要素间的依存关系。
可选地,所属业务场景标注方法可以参照上述实施例中的文本分类模型训练过程介绍的业务场景标注方法。关键要素包括文本片段和关键信息,其中关键信息标注方法可以参照上述实施例中的关键信息识别模型训练过程介绍的关键信息标注方法。进一步,将所有文本片段用文本片段序列标注,且将业务场景、文本片段或关键信息之间存在的依存关系通过依存关系符号标注。以标注材料文本D为例,可选的一种标注结果如图4所示。其中,材料文本D的业务场景标注结果为##保单贷款##。关键信息标注结果分别为矩形框标注的K_倍率_百分比:“80%”、K_金额_所攒金额:“10万”、K_金额_取用金额“8万”、K_时间_时间:“6个月”。其中,标注符号中包括关键信息类型的大类以及小类,例如,“K_金额_所攒金额”表示关键信息“10万”的大类为金额,小类为所攒金额。
需要说明的是,为保证准确性,标注结果也包括对部分非关键信息的标注,例如将材料文本D中的“5年”标注为K_时间_时间。
可选地,对各个关键要素之间的依存关系的标注可以包括将其指向关系利用箭头符号表示。如图4所示,s3和s7之间的依存关系为合并关系,所以将其用箭头符号连接,并标注“sub”。可以理解的是,关键信息与其所在的文本片段间的依存关系可以用该关键信息的类型表示,所以可以直接添加箭头符号由文本片段指向关键信息,并标注该关键信息的类型。例如,“10万”的关键信息类型为K_金额_所攒金额,所以添加箭头符号由“10万”所在文本片段s6指向“10万”,并标注为K_金额_所攒金额。
综上,可得到如图4所示的标注结果示意图。
B2、将标注结果表示为树形结构,得到标注树。
具体地,标注树的根结点为材料训练文本所属的业务场景,子结点为材料训练文本所包含的关键要素,两个子结点间的弧上标注有两个子结点对应的关键要素间的依存关系。可选地,可以直接标注关键信息的小类,例如将“K_金额_所攒金额”标注为“K_所攒金额”。且,同一级的各子结点按照对应的关键要素在材料训练文本中的先后顺序自左向右排序。本实施例中的材料训练文本D为上述实施例中的材料文本,其标注树的结构可以参照附图2。
B3、基于上述标注树,获取扩展标注树。
具体地,由于标注树中包括所有关键要素,且材料训练文本中可能存在文本片段不属于关键要素,所以需要对标注树进行扩展,得到扩展标注树。扩展标注树中包括所有材料训练文本中的文本片段。
可选的一种扩展方法包括:将材料训练文本包含的文本片段中不属于关键要素的每一文本片段以新增结点形式添加到所述标注树中,针对任一新增结点,若标注树中存在排序在其之前的结点,则将该新增结点与标注树中排序在其之前的最上层非根结点相连,否则,将其与根结点相连,并在该新增结点与其父结点的弧上标注表示跳过类型的依存关系。
如图5所示,图5示例了扩展标注树的示意图。其中,将材料训练文本D中包含的文本片段中不属于关键要素的文本片段,即s1,s2,s5,s8,s9,s10,s11,以新增结点形式添加到标注树中。其中,标注树中存在排序在s5,s8,s9,s10,s11之前的结点,所以将该s8,s9,s10,s11与标注树中排序在其之前的最上层非根结点s3相连;标注树中不存在排序在s1,s2之前的结点,所以将s1,s2直接与根结点相连。最后,在所有新增结点与其父结点的弧上标注表示跳过类型的依存关系,即标注符号SKIP。
B4、遍历扩展标注树,可选的一种遍历方法包括:按照从左到右深度优先的方式遍历扩展标注树。具体可以包括:
将当前遍历到的结点到根结点路径上的结点按照在材料训练文本中的先后顺序添加到当前ST中,且若路径上的结点包含表示关键信息的第一结点和表示关键信息所在的文本片段的第二结点时,将第一结点排在第二结点之后。
将当前遍历到的结点在材料训练文本中后续的文本片段添加到当前S中。
将当前遍历到的结点在材料训练文本中后续的关键信息添加到当前K中。
将材料训练文本中位于当前遍历到的结点之前的关键要素对间的依存关系,添加到当前A中。
B5、根据当前遍历到的结点与其父结点的弧上标注的依存关系类型,确定当前转移动作t。可选的,确定方法可以包括:
若当前遍历到的结点与其父结点的弧上标注的依存关系类型表示跳过,则确定当前转移动作t为从S或K中丢弃当前遍历到的结点;
若当前遍历到的结点与其父结点的弧上标注的依存关系类型并非表示跳过,则确定当前转移动作t为从S或K中将当前遍历到的结点转移至ST中,并确定下一时刻的转移动作t为:根据当前遍历到的结点与其父结点在材料训练文本中的先后顺序,产生二者间的依存关系,并将二者在材料训练文本中排序靠后的一项从ST中删除。
B6、由当前ST、当前S、当前K和当前A组成当前解析环境c,由当前解析环境c和当前转移动作t组成一条训练数据。
接下来,以图5所示扩展标注树的遍历过程为例,对上述步骤进行举例说明。该扩展标注树的遍历顺序为[s1,s2,80%,s4,s5,10万,s6,...],根据遍历顺序依次生成如表2所示的训练数据。如下:
表2
下面对本申请实施例提供的文本处理装置进行描述,下文描述的文本处理装置与上文描述的文本处理方法可相互对应参照。
参见图6,图6为本申请实施例公开的一种文本处理装置结构示意图。
如图6所示,该装置可以包括:
目标业务场景获取单元11,用于获取材料文本所属的目标业务场景,所述材料文本由文本片段组成;
关键信息获取单元12,用于获取所述材料文本包含的与所述目标业务场景相关的关键信息;
依存关系确定单元13,用于基于所述目标业务场景下,所述文本片段的特征信息和所述关键信息的特征信息,确定关键要素间的依存关系,所述关键要素包括所述材料文本中的文本片段及所述关键信息。
可选地,本申请实施例对上述目标业务场景获取单元的结构进行说明,具体可以包括:
文本分类模型预测单元,用于将所述材料文本输入预置的文本分类模型,得到文本分类模型输出的所述材料文本所属的目标业务场景;
其中,所述文本分类模型为,以材料训练文本为训练样本,以所述材料训练文本所属的业务场景为样本标签训练得到。
可选地,本申请实施例对上述关键信息获取单元的结构进行说明,具体可以包括:
关键信息识别模型预测单元,用于将所述材料文本输入预置的关键信息识别模型,得到关键信息识别模型输出的关键信息;其中,所述关键信息识别模型为,以属于所述目标业务场景的材料训练文本为训练样本,以所述材料训练文本中标注的与所述目标业务场景相关的关键信息为样本标签训练得到;
关键信息确定单元,用于基于所述关键信息识别模型输出的关键信息,确定所述材料文本包含的与所述目标业务场景相关的关键信息。
可选地,关键信息确定单元可以包括:
第一关键信息确定子单元,用于将所述关键信息识别模型输出的关键信息,作为所述材料文本包含的与所述目标业务场景相关的关键信息;
或,
第二关键信息确定子单元,用于对所述关键信息识别模型输出的关键信息进行标准化处理,得到的标准化后的关键信息作为所述材料文本包含的与所述目标业务场景相关的关键信息。
可选地,本申请实施例对上述依存关系确定单元进行介绍,具体可以包括:
转移动作确定单元,用于基于当前解析环境的特征信息,确定当前的转移动作;当前解析环境c=[ST,S,K,A],其中ST用于存储所述目标业务场景,及响应转移动作的解析,暂存所确定的关键要素;S用于存储未处理的文本片段;K用于存储未处理的关键信息;A用于存储确定的存在依存关系的关键要素对;
转移动作解析单元,用于解析当前的转移动作,以更新当前解析环境,得到更新后的解析环境,并以更新后的解析环境作为新的当前解析环境,返回执行所述转移动作确定单元,直至S和K为空,且ST中不存在关键要素为止,得到最后一次更新后的解析环境中的A存储的关键要素间的依存关系。
可选地,本申请实施例对本装置还包括的结构进行进一步的介绍,具体可以包括:
语义树建立单元,用于基于所述关键要素间的依存关系建立语义树,所述语义树的根结点表示所述目标业务场景,子结点表示所述关键要素,两个子结点间的弧表示所述两个子结点对应的关键要素间的依存关系。
可选地,本申请实施例对上述转移动作确定单元的结构进行介绍,具体可以包括:
转移动作解析模型预测单元,用于将当前解析环境输入预置的转移动作解析模型,得到转移动作解析模型输出的当前的转移动作;
所述转移动作解析模型被配置为,接收输入的解析环境,并基于解析环境的特征信息进行处理,以生成对应的转移动作的内部状态表示。
可选地,转移动作解析模型预测单元可以包括:
特征信息处理单元,用于利用预置的转移动作解析模型,提取并处理当前解析环境的特征信息,以输出当前的转移动作,所述特征信息包括以下至少一项:
目标业务场景特征;
上下文特征:S中的前n1个文本片段,和/或,前n1个文本片段在材料文本中的位置;
结点特征:ST中的前n2个关键要素,和/或,前n2个关键要素的类型,和/或,前n2个关键要素在材料文本中的位置;
孩子结点特征:与ST中的前n3个关键要素存在依存关系的目标关键要素,和/或,所述目标关键要素的类型,和/或,所述目标关键要素在材料文本中的位置;
依存关系类型特征:ST中前n3个关键要素与所述目标关键要素间的依存关系的类型;
关键信息布尔特征:K中第一个关键信息是否存在于S中第一个文本片段中的真伪结果。
可选地,本申请实施例对本装置还可以包括的结构进行说明。具体可以包括:训练数据确定单元,用于确定所述转移动作解析模型的训练数据,所述训练数据确定单元包括:
标注结果获取单元,用于获取材料训练文本的标注结果,所述标注结果包括材料训练文本所属的业务场景,所包含的关键要素及关键要素间的依存关系;
标注树确定单元,用于将所述标注结果表示为树形结构,得到标注树,所述标注树的根结点为材料训练文本所属的业务场景,子结点为材料训练文本所包含的关键要素,两个子结点间的弧上标注有所述两个子结点对应的关键要素间的依存关系,同一级的各子结点按照对应的关键要素在材料训练文本中的先后顺序自左向右排序;
标注树扩展单元,用于扩展所述标注树得到扩展标注树,包括:将材料训练文本包含的文本片段中不属于关键要素的每一文本片段以新增结点形式添加到所述标注树中,针对任一新增结点,若标注树中存在排序在其之前的结点,则将该新增结点与标注树中排序在其之前的最上层非根结点相连,否则,将其与根结点相连,并在该新增结点与其父结点的弧上标注表示跳过类型的依存关系;
扩展标注树遍历单元,用于按照从左到右深度优先的方式遍历扩展标注树,将当前遍历到的结点到根结点路径上的结点按照在材料训练文本中的先后顺序添加到当前ST中,且若所述路径上的结点包含表示关键信息的第一结点和表示所述关键信息所在的文本片段的第二结点时,将所述第一结点排在所述第二结点之后;
S序列更新单元,用于将当前遍历到的结点在材料训练文本中后续的文本片段添加到当前S中;
K序列更新单元,用于将当前遍历到的结点在材料训练文本中后续的关键信息添加到当前K中;
A集合更新单元,用于将材料训练文本中位于当前遍历到的结点之前的关键要素对间的依存关系,添加到当前A中;
当前t确定单元,用于根据当前遍历到的结点与其父结点的弧上标注的依存关系类型,确定当前转移动作t;
训练数据组合单元,用于由当前ST、当前S、当前K和当前A组成当前解析环境c,由当前解析环境c和当前转移动作t组成一条训练数据。
可选地,当前t确定单元包括:
第一当前t确定子单元,用于若当前遍历到的结点与其父结点的弧上标注的依存关系类型表示跳过,则确定当前转移动作t为从S或K中丢弃当前遍历到的结点;
第二当前t确定子单元,用于若当前遍历到的结点与其父结点的弧上标注的依存关系类型并非表示跳过,则确定当前转移动作t为从S或K中将当前遍历到的结点转移至ST中,并确定下一时刻的转移动作t为:根据当前遍历到的结点与其父结点在材料训练文本中的先后顺序,产生二者间的依存关系,并将二者在材料训练文本中排序靠后的一项从ST中删除。
本申请实施例提供的文本处理装置可应用于文本处理设备,如PC终端、云平台、服务器及服务器集群等。可选的,图7示出了文本处理设备的硬件结构框图,参照图7,文本处理设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
获取材料文本所属的目标业务场景,所述材料文本由文本片段组成;
获取所述材料文本包含的与所述目标业务场景相关的关键信息;
基于所述目标业务场景下,所述文本片段的特征信息和所述关键信息的特征信息,确定关键要素间的依存关系,所述关键要素包括所述材料文本中的文本片段及所述关键信息。
可选地,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的程序,所述程序用于:
获取材料文本所属的目标业务场景,所述材料文本由文本片段组成;
获取所述材料文本包含的与所述目标业务场景相关的关键信息;
基于所述目标业务场景下,所述文本片段的特征信息和所述关键信息的特征信息,确定关键要素间的依存关系,所述关键要素包括所述材料文本中的文本片段及所述关键信息。
可选地,所述程序的细化功能和扩展功能可参照上文描述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (15)
1.一种文本处理方法,其特征在于,包括:
获取材料文本所属的目标业务场景,所述材料文本由文本片段组成;
获取所述材料文本包含的与所述目标业务场景相关的关键信息;
基于所述目标业务场景下,所述文本片段的特征信息和所述关键信息的特征信息,确定关键要素间的依存关系,所述关键要素包括所述材料文本中的文本片段及所述关键信息。
2.根据权利要求1所述的方法,其特征在于,还包括:
基于所述关键要素间的依存关系建立语义树,所述语义树的根结点表示所述目标业务场景,子结点表示所述关键要素,两个子结点间的弧表示所述两个子结点对应的关键要素间的依存关系。
3.根据权利要求1所述的方法,其特征在于,所述基于所述目标业务场景下,所述文本片段的特征信息和所述关键信息的特征信息,确定关键要素间的依存关系,包括:
基于当前解析环境的特征信息,确定当前的转移动作;当前解析环境c=[ST,S,K,A],其中ST用于存储所述目标业务场景,及响应转移动作的解析,暂存所确定的关键要素;S用于存储未处理的文本片段;K用于存储未处理的关键信息;A用于存储确定的存在依存关系的关键要素对;
解析当前的转移动作,以更新当前解析环境,得到更新后的解析环境,并以更新后的解析环境作为新的当前解析环境,返回执行确定当前的转移动作的步骤,直至S和K为空,且ST中不存在关键要素为止,得到最后一次更新后的解析环境中的A存储的关键要素间的依存关系。
4.根据权利要求3所述的方法,其特征在于,所述基于当前解析环境的特征信息,确定当前的转移动作,包括:
将当前解析环境输入预置的转移动作解析模型,得到转移动作解析模型输出的当前的转移动作;
所述转移动作解析模型被配置为,接收输入的解析环境,并基于解析环境的特征信息进行处理,以生成对应的转移动作的内部状态表示。
5.根据权利要求3所述的方法,其特征在于,转移动作至少包括二类,分别为:
第一类,取X中的首个对象,转移至ST中或丢弃,其中X为S或K;
第二类,确定ST中顶端的前两个对象间的依存关系,并将该前两个对象中的一个对象从ST中删除。
6.根据权利要求4所述的方法,其特征在于,所述将当前解析环境输入预置的转移动作解析模型,得到转移动作解析模型输出的当前的转移动作,包括:
利用预置的转移动作解析模型,提取并处理当前解析环境的特征信息,以输出当前的转移动作,所述特征信息包括以下至少一项:
目标业务场景特征;
上下文特征:S中的前n1个文本片段,和/或,前n1个文本片段在材料文本中的位置;
结点特征:ST中的前n2个关键要素,和/或,前n2个关键要素的类型,和/或,前n2个关键要素在材料文本中的位置;
孩子结点特征:与ST中的前n3个关键要素存在依存关系的目标关键要素,和/或,所述目标关键要素的类型,和/或,所述目标关键要素在材料文本中的位置;
依存关系类型特征:ST中前n3个关键要素与所述目标关键要素间的依存关系的类型;
关键信息布尔特征:K中第一个关键信息是否存在于S中第一个文本片段中的真伪结果。
7.根据权利要求4所述的方法,其特征在于,所述转移动作解析模型的训练数据的确定过程,包括:
获取材料训练文本的标注结果,所述标注结果包括材料训练文本所属的业务场景,所包含的关键要素及关键要素间的依存关系;
将所述标注结果表示为树形结构,得到标注树;
基于上述标注树,获取扩展标注树;
遍历扩展标注树;
将当前遍历到的结点到根结点路径上的结点按照在材料训练文本中的先后顺序添加到当前ST中;
将当前遍历到的结点在材料训练文本中后续的文本片段添加到当前S中;
将当前遍历到的结点在材料训练文本中后续的关键信息添加到当前K中;
将材料训练文本中位于当前遍历到的结点之前的关键要素对间的依存关系,添加到当前A中;
根据当前遍历到的结点与其父结点的弧上标注的依存关系类型,确定当前转移动作t;
由当前ST、当前S、当前K和当前A组成当前解析环境c,由当前解析环境c和当前转移动作t组成一条训练数据。
8.根据权利要求7所述的方法,其特征在于,所述根据当前遍历到的结点与其父结点的弧上标注的依存关系类型,确定当前转移动作t,包括:
若当前遍历到的结点与其父结点的弧上标注的依存关系类型表示跳过,则确定当前转移动作t为从S或K中丢弃当前遍历到的结点;
若当前遍历到的结点与其父结点的弧上标注的依存关系类型并非表示跳过,则确定当前转移动作t为从S或K中将当前遍历到的结点转移至ST中,并确定下一时刻的转移动作t为:根据当前遍历到的结点与其父结点在材料训练文本中的先后顺序,产生二者间的依存关系,并将二者在材料训练文本中排序靠后的一项从ST中删除。
9.根据权利要求1所述的方法,其特征在于,所述获取材料文本所属的目标业务场景,包括:
将所述材料文本输入预置的文本分类模型,得到文本分类模型输出的所述材料文本所属的目标业务场景;
其中,所述文本分类模型为,以材料训练文本为训练样本,以所述材料训练文本所属的业务场景为样本标签训练得到。
10.根据权利要求1所述的方法,其特征在于,所述获取所述材料文本包含的与所述目标业务场景相关的关键信息,包括:
将所述材料文本输入预置的关键信息识别模型,得到关键信息识别模型输出的关键信息;其中,所述关键信息识别模型为,以属于所述目标业务场景的材料训练文本为训练样本,以所述材料训练文本中标注的与所述目标业务场景相关的关键信息为样本标签训练得到;
基于所述关键信息识别模型输出的关键信息,确定所述材料文本包含的与所述目标业务场景相关的关键信息。
11.根据权利要求10所述的方法,其特征在于,所述基于所述关键信息识别模型输出的关键信息,确定所述材料文本包含的与所述目标业务场景相关的关键信息,包括:
将所述关键信息识别模型输出的关键信息,作为所述材料文本包含的与所述目标业务场景相关的关键信息;
或,
对所述关键信息识别模型输出的关键信息进行标准化处理,得到的标准化后的关键信息作为所述材料文本包含的与所述目标业务场景相关的关键信息。
12.一种文本处理装置,其特征在于,包括:
目标业务场景获取单元,用于获取材料文本所属的目标业务场景,所述材料文本由文本片段组成;
关键信息获取单元,用于获取所述材料文本包含的与所述目标业务场景相关的关键信息;
依存关系确定单元,用于基于所述目标业务场景下,所述文本片段的特征信息和所述关键信息的特征信息,确定关键要素间的依存关系,所述关键要素包括所述材料文本中的文本片段及所述关键信息。
13.根据权利要求12所述的装置,其特征在于,还包括:
语义树建立单元,用于基于所述关键要素间的依存关系建立语义树,所述语义树的根结点表示所述目标业务场景,子结点表示所述关键要素,两个子结点间的弧表示所述两个子结点对应的关键要素间的依存关系。
14.一种文本处理设备,其特征在于,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1-11中任一项所述的文本处理方法的各个步骤。
15.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1-11中任一项所述的文本处理方法的各个步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910521610.9A CN110209772B (zh) | 2019-06-17 | 2019-06-17 | 一种文本处理方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910521610.9A CN110209772B (zh) | 2019-06-17 | 2019-06-17 | 一种文本处理方法、装置、设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110209772A true CN110209772A (zh) | 2019-09-06 |
CN110209772B CN110209772B (zh) | 2021-10-08 |
Family
ID=67792986
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910521610.9A Active CN110209772B (zh) | 2019-06-17 | 2019-06-17 | 一种文本处理方法、装置、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110209772B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929027A (zh) * | 2019-09-30 | 2020-03-27 | 珠海格力电器股份有限公司 | 提示系统、提示方法、计算机及废物容纳装置 |
CN111192117A (zh) * | 2020-01-02 | 2020-05-22 | 上海三菱电梯有限公司 | 电梯订单生成方法及其系统 |
CN112926313A (zh) * | 2021-03-10 | 2021-06-08 | 新华智云科技有限公司 | 一种槽位信息的提取方法与系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102262624A (zh) * | 2011-08-08 | 2011-11-30 | 中国科学院自动化研究所 | 基于多模态辅助的实现跨语言沟通系统及方法 |
CN103226580A (zh) * | 2013-04-02 | 2013-07-31 | 西安交通大学 | 一种面向交互文本的话题识别方法 |
US20160117311A1 (en) * | 2014-10-22 | 2016-04-28 | Thomson Licensing | Method and Device for Performing Story Analysis |
CN109558593A (zh) * | 2018-11-30 | 2019-04-02 | 北京字节跳动网络技术有限公司 | 用于处理文本的方法和装置 |
CN109670033A (zh) * | 2019-02-01 | 2019-04-23 | 青岛海信电器股份有限公司 | 内容的检索方法、装置、设备及存储介质 |
CN109857990A (zh) * | 2018-12-18 | 2019-06-07 | 重庆邮电大学 | 一种基于文档结构与深度学习的金融类公告信息抽取方法 |
-
2019
- 2019-06-17 CN CN201910521610.9A patent/CN110209772B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102262624A (zh) * | 2011-08-08 | 2011-11-30 | 中国科学院自动化研究所 | 基于多模态辅助的实现跨语言沟通系统及方法 |
CN103226580A (zh) * | 2013-04-02 | 2013-07-31 | 西安交通大学 | 一种面向交互文本的话题识别方法 |
US20160117311A1 (en) * | 2014-10-22 | 2016-04-28 | Thomson Licensing | Method and Device for Performing Story Analysis |
CN109558593A (zh) * | 2018-11-30 | 2019-04-02 | 北京字节跳动网络技术有限公司 | 用于处理文本的方法和装置 |
CN109857990A (zh) * | 2018-12-18 | 2019-06-07 | 重庆邮电大学 | 一种基于文档结构与深度学习的金融类公告信息抽取方法 |
CN109670033A (zh) * | 2019-02-01 | 2019-04-23 | 青岛海信电器股份有限公司 | 内容的检索方法、装置、设备及存储介质 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929027A (zh) * | 2019-09-30 | 2020-03-27 | 珠海格力电器股份有限公司 | 提示系统、提示方法、计算机及废物容纳装置 |
CN110929027B (zh) * | 2019-09-30 | 2022-08-12 | 珠海格力电器股份有限公司 | 提示系统、提示方法、计算机及废物容纳装置 |
CN111192117A (zh) * | 2020-01-02 | 2020-05-22 | 上海三菱电梯有限公司 | 电梯订单生成方法及其系统 |
CN111192117B (zh) * | 2020-01-02 | 2024-03-12 | 上海三菱电梯有限公司 | 电梯订单生成方法及其系统 |
CN112926313A (zh) * | 2021-03-10 | 2021-06-08 | 新华智云科技有限公司 | 一种槽位信息的提取方法与系统 |
CN112926313B (zh) * | 2021-03-10 | 2023-08-15 | 新华智云科技有限公司 | 一种槽位信息的提取方法与系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110209772B (zh) | 2021-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112241481B (zh) | 基于图神经网络的跨模态新闻事件分类方法及系统 | |
US11687728B2 (en) | Text sentiment analysis method based on multi-level graph pooling | |
CN107766371B (zh) | 一种文本信息分类方法及其装置 | |
CN110347894A (zh) | 基于爬虫的知识图谱处理方法、装置、计算机设备及存储介质 | |
CN107729309A (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
CN112711953A (zh) | 一种基于注意力机制和gcn的文本多标签分类方法和系统 | |
CN110209772A (zh) | 一种文本处理方法、装置、设备及可读存储介质 | |
CN109840322A (zh) | 一种基于强化学习的完形填空型阅读理解分析模型及方法 | |
CN113051914A (zh) | 一种基于多特征动态画像的企业隐藏标签抽取方法及装置 | |
CN110334214A (zh) | 一种自动识别案件中虚假诉讼的方法 | |
CN113268561B (zh) | 一种基于多任务联合训练的问题生成方法 | |
CN115409018B (zh) | 基于大数据的公司舆情监测系统及其方法 | |
CN114722820A (zh) | 基于门控机制和图注意力网络的中文实体关系抽取方法 | |
CN113742733A (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN116737922A (zh) | 一种游客在线评论细粒度情感分析方法和系统 | |
CN113239694B (zh) | 一种基于论元短语的论元角色识别的方法 | |
CN113627194B (zh) | 信息抽取方法及装置、通信消息分类方法及装置 | |
Garrido-Munoz et al. | A holistic approach for image-to-graph: application to optical music recognition | |
CN113378024A (zh) | 一种基于深度学习面向公检法领域的相关事件识别方法 | |
CN117236676A (zh) | 一种基于多模态事件抽取的rpa流程挖掘方法和装置 | |
CN111475648A (zh) | 一种文本分类模型生成方法、文本分类方法及装置、设备 | |
CN114840642A (zh) | 事件抽取方法、装置、设备及存储介质 | |
CN113051869B (zh) | 一种结合语义识别实现标识文本差异内容的方法及系统 | |
CN113342982B (zh) | 融合RoBERTa和外部知识库的企业行业分类方法 | |
CN111046934B (zh) | 一种swift报文软条款识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20221214 Address after: 307, Floor 3, Building 5, East Yard, No. 10, Xibeiwang East Road, Haidian District, Beijing 100094 Patentee after: Beijing iFLYTEK Education Technology Co.,Ltd. Address before: NO.666, Wangjiang West Road, hi tech Zone, Hefei City, Anhui Province Patentee before: IFLYTEK Co.,Ltd. |