CN113987147A - 样本处理方法及装置 - Google Patents

样本处理方法及装置 Download PDF

Info

Publication number
CN113987147A
CN113987147A CN202111256825.6A CN202111256825A CN113987147A CN 113987147 A CN113987147 A CN 113987147A CN 202111256825 A CN202111256825 A CN 202111256825A CN 113987147 A CN113987147 A CN 113987147A
Authority
CN
China
Prior art keywords
sample
question
training
initial
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111256825.6A
Other languages
English (en)
Inventor
冯晓阳
李长亮
姬子明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Digital Entertainment Co Ltd
Original Assignee
Beijing Kingsoft Digital Entertainment Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Digital Entertainment Co Ltd filed Critical Beijing Kingsoft Digital Entertainment Co Ltd
Priority to CN202111256825.6A priority Critical patent/CN113987147A/zh
Publication of CN113987147A publication Critical patent/CN113987147A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供样本处理方法及装置,其中所述样本处理方法包括:获取样本语料,并构建所述样本语料对应的初始文本意群;为所述样本语料添加语境标签,以及提取所述初始文本意群对应的初始词组;建立所述语境标签和所述初始文本意群的对应关系;根据所述对应关系和所述初始词组构建所述样本语料对应的场景定向词表空间。

Description

样本处理方法及装置
技术领域
本申请涉及人工智能技术领域,特别涉及一种样本处理方法及装置。
背景技术
随着人工智能产业的发展,问答模型在实际应用中所占的比例也逐渐增高,用户对问答模型的回复准确性和回复效率的要求也越来越高,而实际应用中,问答模型的预测精准度取决于训练阶段的样本质量和数量。现有技术中,在问答模型训练前的数据准备阶段,通常会采用人工参与的方式进行数据的处理和标注,该过程不仅会消耗大量的人力资源,而且由于样本语料所包含的成分较为复杂,导致数据处理阶段会产生大量的冗余数据,从而导致占用过多的存储资源,且会对待训练的问答模型的精准度产生一定的影响。因此亟需一种有效的方案以解决上述问题。
发明内容
有鉴于此,本申请实施例提供了一种样本处理方法,以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种样本处理装置,一种问答模型的训练方法,一种问答模型的训练装置,一种计算设备,以及一种计算机可读存储介质。
根据本申请实施例的第一方面,提供了一种样本处理方法,包括:
获取样本语料,并构建所述样本语料对应的初始文本意群;
为所述样本语料添加语境标签,以及提取所述初始文本意群对应的初始词组;
建立所述语境标签和所述初始文本意群的对应关系;
根据所述对应关系和所述初始词组构建所述样本语料对应的场景定向词表空间。
可选地,所述根据所述对应关系和所述初始词组构建所述样本语料对应的场景定向词表空间步骤执行之后,还包括:
获取训练样本,并确定所述训练样本对应的样本词组;
基于所述样本词组查询所述场景定向词表空间,根据查询结果确定所述训练样本对应的目标文本意群;
利用所述目标文本意群和所述训练样本对初始问答模型进行训练,直至获得满足训练停止条件的目标问答模型。
可选地,所述为所述样本语料添加语境标签,包括:
提取所述样本语料的多个初始特征,并对所述多个初始特征进行预处理获得多个目标特征;
计算各个目标特征与所述样本语料的语境相似度,根据语境相似度计算结果选择至少一个目标特征作为所述语境标签,并添加至所述样本语料。
可选地,所述基于所述样本词组查询所述场景定向词表空间,根据查询结果确定所述训练样本对应的目标文本意群,包括:
将所述样本词组映射到所述场景定向词表空间,计算所述样本词组与所述语境标签的词组相似度;
根据词组相似度计算结果确定目标语境标签,并将所述目标语境标签对应的初始文本意群作为所述目标文本意群。
可选地,所述获取训练样本,包括:
获取与所述样本语料具有关联关系的所述训练样本;
其中,所述利用所述目标文本意群和所述训练样本对初始问答模型进行训练,直至获得满足训练停止条件的目标问答模型,包括:
利用与所述样本语料具有关联关系的所述训练样本和所述目标文本意群对初始问答模型进行训练,直至获得满足训练停止条件的目标问答模型。
可选地,所述确定所述训练样本对应的样本词组,包括:
对所述训练样本进行解析,获得所述训练样本中的样本问题文本;
提取所述样本问题文本中的第一词单元和第二词单元,基于所述第一词单元和所述第二词单元构建所述样本词组。
可选地,所述利用所述目标文本意群和所述训练样本对初始问答模型进行训练,直至获得满足训练停止条件的目标问答模型,包括:
将所述目标文本意群和所述训练样本中的所述样本问题文本输入至所述初始问答模型进行处理,获得预测答案文本;
基于所述预测答案文本和所述训练样本中的样本答案文本对所述初始问答模型进行优化,直至获得满足训练停止条件的所述目标问答模型。
可选地,所述将所述目标文本意群和所述训练样本中的所述样本问题文本输入至所述初始问答模型进行处理,获得预测答案文本,包括:
基于所述样本问题文本生成词单元向量以及场景标签向量,以及基于所述目标文本意群生成意群向量;
对所述词单元向量和所述场景标签向量进行整合,获得所述样本问题文本对应的样本问题向量;
将所述样本问题向量和所述意群向量输入至所述初始问答模型进行处理,获得所述预测答案文本。
可选地,所述将所述样本问题向量和所述意群向量输入至所述初始问答模型进行处理,获得所述预测答案文本,包括:
将所述样本问题向量和所述意群向量输入至所述初始问答模型,通过所述初始问答模型中的融合模块对所述样本问题向量和所述意群向量进行处理,获得融合向量;
将所述融合向量输入至所述初始问答模型中的识别模块进行处理,获得关联实体中心词和上下文场景分布;
通过所述初始问答模型中的输出层对所述关联实体中心词和所述上下文场景分布进行处理,获得所述预测答案文本。
可选地,所述对所述多个初始特征进行预处理获得多个目标特征,包括:
对所述多个初始特征进行清洗,根据清洗处理结果确定所述多个目标特征;
其中,所述根据语境相似度计算结果选择至少一个目标特征作为所述语境标签,包括:
将所述语境相似度与预设的语境相似度阈值进行比较,选择大于等于所述语境相似度阈值的目标特征作为所述语境标签;或者
根据语境相似度计算结果选择相似度最大的目标特征作为所述语境标签。
根据本申请实施例的第二方面,提供了一种样本处理装置,包括:
获取模块,被配置为获取样本语料,并构建所述样本语料对应的初始文本意群;
添加模块,被配置为为所述样本语料添加语境标签,以及提取所述初始文本意群对应的初始词组;
建立模块,被配置为建立所述语境标签和所述初始文本意群的对应关系;
构建模块,被配置为根据所述对应关系和所述初始词组构建所述样本语料对应的场景定向词表空间。
根据本申请实施例的第三方面,提供了一种问答模型的训练方法,包括:
获取训练样本,并确定所述训练样本对应的样本词组;
基于所述样本词组查询上述方法中的场景定向词表空间,根据查询结果确定所述训练样本对应的目标文本意群;
利用所述目标文本意群和所述训练样本对初始问答模型进行训练,直至获得满足训练停止条件的目标问答模型。
根据本申请实施例的第四方面,提供了一种问答模型的训练装置,包括:
获取样本模块,被配置为获取训练样本,并确定所述训练样本对应的样本词组;
确定意群模块,被配置为基于所述样本词组查询上述方法中的场景定向词表空间,根据查询结果确定所述训练样本对应的目标文本意群;
训练模型模块,被配置为利用所述目标文本意群和所述训练样本对初始问答模型进行训练,直至获得满足训练停止条件的目标问答模型。
根据本申请实施例的第五方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器执行所述计算机可执行指令时实现样本处理方法或问答模型的训练方法的步骤。
根据本申请实施例的第六方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现样本处理方法或问答模型的训练方法的步骤。
本申请提供的样本处理方法,为了能够减少冗余数据对模型训练阶段产生的影响,以及节省存储资源;可以在获取样本语料后,构建样本语料对应的初始文本意群,之后为样本语料添加语境标签,同时提取初始文本意群对应的初始词组,其次建立语境标签和初始文本意群的对应关系,最后再根据该对应关系和初始词组构建样本语料对应的场景定向词表空间。实现在模型训练前的数据准备阶段,通过从样本语料的初始文本意群出发进行场景定向词表空间的构建,不仅可以降低样本语料中冗余数据占用过多的资源以及产生的负面影响,还能够保证场景定向词表空间的丰富程度,从而有效的提高了数据准备阶段的充分程度,有助于模型训练阶段提高模型的预测精准度。
附图说明
图1是本申请一实施例提供的一种问答模型的训练方法的流程图;
图2是本申请一实施例提供的一种问答模型的训练方法中问答模型的结构示意图;
图3是本申请一实施例提供的一种问答模型的训练装置的结构示意图;
图4是本申请一实施例提供的一种文本处理方法的流程图;
图5是本申请一实施例提供的一种应用于古诗词问答场景中的处理流程图;
图6是本申请一实施例提供的一种文本处理装置的结构示意图;
图7是本申请一实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。
首先,对本发明一个或多个实施例涉及的名词术语进行解释。
ERNIE:通过建模海量数据中的词、实体及实体关系,学习真实世界的语义知识;相较于BERT学习局部语言共现的语义表示,ERNIE直接对语义知识进行建模,增强了模型语义表示能力。
LSTM:(Long Short-Term Memory,长短期记忆网络)是一种时间循环神经网络,是为了解决一般的RNN存在的长期依赖问题而专门设计出来的,所有的RNN都具有一种重复神经网络模块的链式形式。在标准RNN中,这个重复的结构模块只有一个非常简单的结构,例如一个tanh层。
RNN:(Recurrent Neural Network,循环神经网络)是一类以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络。
BiLSTM:(Bi-directional Long Short-Term Memory)由前向LSTM与后向LSTM组合而成。应用于自然语言处理任务中建模上下文信息。
短语相似度:通过两个短语词向量之间的点乘,可以计算这两个短语之间的相似度。
语料:用于在翻译或语言研究场景中所使用的基本元素,是构成语料库的基本单元。
LDA:(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。
语义依存分析:(Semantic Dependency Parsing,SDP)分析句子各个语言单位之间的语义关联,并将语义关联以依存结构呈现。使用语义依存刻画句子语义,不需要去抽象词汇本身,而是通过词汇所承受的语义框架来描述该词汇,而论元的数目相对词汇来说数量总是少了很多的。语义依存分析目标是跨越句子表层句法结构的束缚,直接获取深层的语义信息。
意群:是指句子中按意思和结构划分出的各个成分,每一个成分即称为一个意群;同一意群中的词与词关系紧密,不能随意拆分,否则就会引起误解。
语境:是指使用语言的环境;其中内部语境指一定的言语片断和一定的上下文之间的关系,外部语境指存在于言语片断之外的语言的社会环境。
在本申请中,提供了一种问答模型的训练方法。本申请同时涉及一种问答模型的训练装置、一种文本处理方法、一种文本处理装置、一种计算设备以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
实际应用中,问答系统在各个领域都得以应用,而不同领域的问答系统由于不同的领域特性,所处理的问题难度也各不相同。如在古典诗词问答系统中,为了能够针对古典诗词相关的问题作出准确的答复,通常在模型准备阶段,对古典诗词实体进行提取,用于训练古典诗词问答系统中的问答模型,以作出精准的回答。现有技术中,古典诗词实体提取通常分为两类,分别是规则提取和模型提取,规则提取方法通过判断原始诗词文本中重要的词句,根据语法规则和诗词知识库提取实体。而模型提取方法则是应用自然语言处理的算法模型,通过自注意力、预训练、意群适配等技术,生成更凝练简洁的诗词实体集合。比起规则提取方法,模型提取方法更接近用户进行实体发现和提取的过程,而伴随着深度神经网络的兴起和研究,基于神经网络Transformer的实体提取模型算法得到快速发展,并取得了不错的成绩,并表现了较强的模型泛化能力。
然而,由于古典诗词本身较为复杂,在古典诗词实体提取阶段,现有的提取算法对诗词文本实体处理粒度相对模糊,导致输出的诗词语料实体词缺乏语境辨识度,同时输出的实体词存在较多的重复,数据冗余现象严重,很大程度上影响实体提取的质量,因此亟需一种有效的方案以解决上述问题。
有鉴于此,本申请提供一种问答模型的训练方法,通过构建样本语料对应的初始文本意群后,将基于初始文本意群生成样本语料对应的场景定向词表空间,此时为模型训练准备了充足的语料;之后获取训练样本,并确定训练样本对应的样本词组,利用样本词组查询场景定向词表空间,以根据查询结果确定训练样本对应的目标文本意群,最后根据目标文本意群和训练样本对初始问答模型进行训练,直至满足训练停止条件,即可获得目标问答模型;实现了从语义层面捕捉问题和语料间的关联,有效的保证了训练后的问答模型的预测精准度,并且在准备阶段利用丰富的样本语料构建场景定向词表空间,有效的提高了问答模型的处理能力,从而实现精准高效的完成问答处理任务。
图1示出了根据本申请一实施例提供的一种问答模型的训练方法的流程图,具体包括以下步骤:
步骤S102,构建样本语料对应的初始文本意群,并基于所述初始文本意群生成所述样本语料对应的场景定向词表空间。
具体的,样本语料具体是指训练问答模型时,提供全量样本信息的文本语料,不同领域所对应的样本语料也不相同。如在古典诗词问答领域,样本语料可以由诗词正文、标题、作者、作者信息、诗词正文解释和诗词解析等组成的文本语料;或者在体育知识问答领域,样本语料可以由体育赛事解读文本、体育明星、体育明星信息和体育赛事地点等组成的文本语料;再或者在人物关系问答领域,样本语料可以由人物、人物信息、家庭信息、任职信息、人物传记和人物事迹等组成的文本语料。实际应用中,不同的问答领域所使用的样本语料可以根据实际需求进行获取构建,本实施例在此不作任何限定。
进一步的,为了能够训练出满足使用需求的问答模型,则需要不断的提供样本进行多轮次的迭代训练,同时还需要结合损失函数对模型进行优化,因此在数据准备阶段,则需要准备大量的样本语料,以通过提高样本丰富度的方式避免模型过拟合或训练不完全的问题。
更进一步的,初始文本意群具体是指基于各个样本语料所构建的文本意群,即通过对各个样本语料中的句子按照意思和结构划分出多个成分,多个成分即可组成相对应的样本语料所对应的初始文本意群,用于后续构建场景定向词表空间,以及辅助问答模型学习文本与意群之间的细粒度语义关联关系,从而保证模型的预测能力。需要说明的是,由于所述样本语料的数据量较大,因此可以将所述样本语料存储在领域对应的语料库中,以方便对样本语料进行管理和使用。
相应的,场景定向词表空间具体是指基于各个样本语料对应的初始文本意群所构建的实体词关联关系的表达关系,通过将各个样本语料对应的初始文本意群进行整合,即可组成全量样本语料对应的初始文本意群组合在一起所构建的场景定向词表空间,且场景定向词表空间中包含各个样本语料的场景信息以及语境信息,用于后续可以定位文本对应的目标文本意群,以针对问题作出精准的答复。
进一步的,在基于初始文本意群创建场景定向词表空间的过程中,由于样本语料所对应的初始文本意群所包含的成分较为复杂,如果直接全量使用各个初始文本意群组建场景定向词表空间,将会产生大量的冗余数据,占用过多的存储资源,因此为了降低冗余的数据产生的干扰,将优先提取初始词组完成场景定向词表空间的创建,本实施例中,具体实现方式如步骤S1022至步骤S1024:
步骤S1022,为所述样本语料添加语境标签,以及提取所述初始文本意群中的初始词组。
具体的,语境标签具体是指根据样本语料的语言环境对样本语料添加的标签,需要说明的是,由于不同的样本语料所对应的语言环境较为复杂,因此可以针对所述样本语料添加多个不同的语境标签,如古诗《静夜思》,其表达了作者的思乡之情,以及景色优美的含义,因此在针对样本语料古诗《静夜思》添加语境标签时,可以添加思乡语境标签和景色语境标签;再或者古诗《赠汪伦》,其表达了作者的离别之情,以及作者与“汪伦”的友情,因此在针对样本语料古诗《赠汪伦》添加语境标签时,可以添加离别语境标签和友情语境标签。
基于此,初始词组具体是指从所述初始文本意群中提取名词性原词和动词短语词干所组成的词组,用于表征初始文本意群对应的样本语料的核心思想和重点内容,同时可以为后续生成场景定向词表空间打下基础,保证在针对问题作答阶段可以从语义出发精准的定位答案,保证作答的正确性。
实际应用中,在为样本语料添加语境标签的过程中,考虑到样本语料所对应的语境标签可能不唯一,因此可以采用LDA特征工程模型对各个样本语料进行处理,以精准的针对各个样本语料进行语境标签的确定,有效的提高了针对样本语料添加语境标签的效率。
同时在提取初始文本意群中的初始词组时,也可以采用语义依存分析工具,即通过分析样本语料中句子语言单位之间的语义关联,并将语义关联以依存结构呈现,使用语言依存刻画句子语义,实现在不需要抽象样本语料中的词单元的本申请的情况下,通过词单元所承受的语义架构来描述该词单元,实现规避句子表层句法结构的束缚,直接获取深层的语义信息。例如“甲吃了苹果”通过语义依存分析工具对该语句进行分析处理,确定词单元“甲”与词单元“吃”具有Agt关系,词单元“吃”与词单元“了”具有mTime关系,词单元“吃”与词单元“苹果”具有Pat关系,其中Agt关系表示施事关系,mTime关系表示时间标记,Pat关系表示受事关系。与此类似,在提取各个初始文本意群的初始词组后,即可将词组间的内在关系进行存储,用于后续创建场景定向词表空间。
进一步的,在针对样本语料添加语境标签的过程中,为了能够保证添加的语境标签与样本语料更加贴合,可以采用计算语境相似度的方式对语境标签进行筛选,本实施例中,具体实现方式如下所述:
提取所述样本语料的多个初始特征,并对所述多个初始特征进行预处理获得多个目标特征;
计算各个目标特征与所述样本语料的语境相似度,根据语境相似度计算结果选择至少一个目标特征作为所述语境标签,并添加至所述样本语料。
具体的,初始特征具体是指样本语料在不同的维度所表达的含义,目标特征具体是指对各个初始特征进行预处理后所得到的特征表达。其中,预处理具体是指对多个初始特征进行清洗,即将重复或冗余的特征进行删除,以从多个初始特征中确定多个目标特征。相应的,语境相似度具体是指计算各个目标特征与所对应的样本语料在语言环境维度所相似的程度。
基于此,在获得样本语料之后,为了能够构建出更加丰富的场景定向词表空间,此时可以提取样本语料的多个初始特征,之后为了避免数据冗余造成计算压力过大,可以对多个初始特征进行预处理,以获得多个目标特征,其中多个目标特征的数量小于等于多个初始特征的数量。其次通过计算多个目标特征中的各个目标特征与提取初始特征的样本语料的语境相似度,从而根据语境相似度计算结果选择至少一个目标特征作为语境标签,并添加至样本语料即可。
实际应用中,在根据语境相似度计算结果选择至少一个目标特征作为语境标签的过程中,考虑到样本语料在不同的维度所表达的含义并不相同,因此可以将语境相似度与预设的语境相似度阈值进行比较,选择大于等于语境相似度阈值的目标特征作为样本语料的语境标签;此外,还可以在计算完成语境相似度后,选择语境相似度最大的目标特征作为语境标签,以确保每个样本语料具有唯一的语境标签。具体实施时,确定语境标签的方式可以根据实际应用场景进行选择,本实施例在此不作任何限定。
综上,通过从样本语料的特征出发筛选语境标签,不仅可以保证语境标签与样本语料的契合度,还能够保证后续构建的定向场景词表空间的丰富度,从而提高问答模型的预测能力。
步骤S1024,建立所述语境标签与所述初始文本意群的对应关系,并根据所述对应关系和初始词组构建所述样本语料对应的所述场景定向词表空间。
具体的,在上述完成针对样本语料添加语境标签,以及提取初始文本意群中的初始词组的基础上,进一步的,为了能够保证所构建出的场景定向词表空间的丰富度,可以建立语境标签与初始文本意群的对应关系,即语境标签是添加到样本语料的标签,而初始文本意群又是基于样本语料所构建得到的,因此通过确定各个样本语料即可确定语境标签和初始文本意群的对应关系,之后根据该对应关系以及从初始文本意群中提取出的初始词组即可构建出样本语料对应的场景定向词表空间,以用于后续进行问答模型的训练。
本实施例以训练的问答模型在古典诗词领域为例进行说明,其他领域的问答模型的训练方法均可参见本实施例相应的描述内容,在此不作过多赘述。
举例说明,古典诗词语料库中存储有大量的古典诗词对应的语料,并且每个古典诗词对应的语料中均包含诗词正文、标题、作者、作者信息、诗词正文解释和诗词解析;以古典诗词语料库中包含一万首古典诗词及其对应的内容进行说明,在确定古典诗词语料库中包含的古典诗词语料后,此时可以通过任务启发式主题分类算法针对每个古典诗词语建立粗粒度的诗词初始文本意群,同时通过LDA特征工程模型为各个古典诗词语料添加语境标签。
在添加语境标签的过程中,可以针对各个古典诗词语料提取其对应的多个初始特征{思乡;离别;边塞;友谊;景色;悲伤……壮志},之后对各个古典诗词语料所对应的多个初始特征进行预处理,获得各个古典诗词语料所对应的目标特征,通过计算古典诗词语料与其对应的目标特征的语境相似度,选择大于预设语境相似度阈值的目标特征作为古典诗词语料的语境标签,并添加至其对应的古典诗词语料即可;即《使至塞上》古典诗词语料对应的语境标签包括{边塞;景色;悲伤情感}……《静夜思》古典诗词语料对应的语境标签包括{情感;思想;景色}。
进一步的,在获得各个古典诗词语料对应的语境标签后,可以建立各个古典诗词语境对应的初始文本意群与语境标签的对应关系,同时利用语义依存分析工具提取各个初始文本意群的名词性原词和动词短语词干组成各个初始文本意群对应的初始词组,结合该对应关系和初始词组构建古典诗词语料对应的场景定向实体词表空间,用于后续可以辅助完成古典诗词问答模型的训练,以及古典诗词问答系统的训练。
综上,在建立场景定向词表空间的过程中,通过结合样本语料对应的语境标签和初始词组,可以有效的保证该空间中包含各个样本语料的语义信息,方便后续进行问答模型训练所使用。
步骤S104,获取训练样本,并确定所述训练样本对应的样本词组。
具体的,在上述基于样本语料构建完成场景定向词表空间的基础上,进一步的,为了能够针对样本语料对应的领域训练出满足需求的问答模型,可以在获取到该领域的训练样本后,确定训练样本对应的样本词组,为后续确定目标文本意群打下基础,以针对模型建立意群和不同类型的问题的关系,使得模型可以从语义出发针对问题作出答复。
基于此,训练样本具体是指后续训练问答模型所使用的样本,其中包括样本问题和样本答案,相应的,样本词组具体是指基于训练样本所构建的实体词组,用于映射到场景定向词表空间,实现从词表空间中找到与样本对应的文本意群,用于后续进行问答模型的训练。
进一步的,在确定训练样本对应的样本词组的过程中,由于场景定向词表空间是基于初始文本意群所构建,因此为了能够满足后续将样本词组映射到场景定向词表空间进行目标文本意群的确定,此时将选择相同架构的方式确定样本词组,以保证样本词组可以成功映射到场景定向词表空间,本实施例中,具体实现方式如下所述:
对所述训练样本进行解析,获得所述训练样本中的样本问题文本;
提取所述样本问题文本中的第一词单元和第二词单元,基于所述第一词单元和所述第二词单元构建所述样本词组。
具体的,样本问题文本具体是指预先准备的与样本语料所对应的领域相关的问题,并且为了能够保证后续成功的对问答模型进行训练,所获取的训练样本需要与样本语料具有一定的关联关系,该关联关系具体是指训练样本中包含的样本问题文本是基于样本语料所提出的,且该样本问题文本所对应的答案也可以从样本语料中确定。相应的,第一词单元具体是指从样本问题文本中所提取出的名词性原词,第二词单元具体是指从样本问题文本中所提取出的动词短语词干。
基于此,在获得训练样本后,可以对训练样本进行解析,以获得训练样本中的样本问题文本,之后为了能够在后续可以从场景定向词表空间中确定与样本问题文本关联的目标文本意群,辅助完整问答模型的训练,可以从样本问题文本中提取名词性原词和动词短语词干,之后将二者进行整合构建出训练样本对应的样本词组,保证样本词组的结构与场景定向词表空间的结构相同,以实现可以快速的完成目标文本意群的确定,加快问答模型的训练效率。
沿用上例,在基于一万首古典诗词及其对应的内容构建完成场景定向实体词表空间后,此时为了能够训练出针对古典诗词的问题进行作答的古典诗词问答模型,可以获取包含样本问题文本和样本答案文本的训练样本,且训练样本中包含的样本问题文本与古典诗词相关,样本问题文本可以包括{《静夜思》的中心思想是什么?}、{请提供一首描写边塞风景的古诗}或{《黄鹤楼》的作者是谁?}等,而为了能够确定与各个样本问题文本关联的古典诗词语料,此时可以分别提取各个样本问题文本中的名词性原词和动词短语词干,以生成各个样本问题文本对应的待定向关联实体词组,方便后续映射到场景定向实体词表空间,用于确定各个样本问题文本对应的目标文本意群。
步骤S106,基于所述样本词组查询所述场景定向词表空间,根据查询结果确定所述训练样本对应的目标文本意群。
具体的,在上述确定训练样本对应的样本词组基础上,为了能够保证后续训练的问答模型可以学习到问题文本与文本意群的语义关联关系,此时可以基于训练样本对应的样本词组查询预先构建的场景定向词表空间,实现根据查询结果精准的确定训练样本对应的目标文本意群,以用于后续进行问答模型的训练。
基于此,目标文本意群具体是指从场景定向词表空间中筛选出的与训练样本关联程度较高的初始文本意群,且能够从初始文本意群对应的样本语料中定位训练样本中的样本问题文本对应的答案。
进一步的,在确定目标文本意群的过程中,由于场景定向词表空间中包含的样本语料对应的初始文本意群较为复杂,因此为了能够精准确定与训练样本对应的目标文本意群,可以从语境标签出发确定目标文本意群,本实施例中,具体实现方式如下所述:
将所述样本词组映射到所述场景定向词表空间,计算所述样本词组与所述语境标签的词组相似度;
根据词组相似度计算结果确定目标语境标签,并将所述目标语境标签对应的初始文本意群作为所述目标文本意群。
具体的,词组相似度具体是指计算样本词组与场景定向词表空间中包含的语境标签之间的相似度,目标语境标签具体是指与样本词组的词组相似度最高的语境标签。
基于此,在确定训练样本对应的样本词组后,可以将样本词组映射到场景定向词表空间,之后计算样本词组与场景定向词表空间中包含的语境标签的词组相似度,之后选择词组相似度最高的语境标签作为目标语境标签,最后从场景定向词表空间中确定目标语境标签对应的初始文本意群作为目标文本意群,用于后续进行问答模型的训练。具体实施时,在根据词组相似度确定目标语境标签的过程中,可以确定一个或多个目标语境标签,相应的,从场景定向词表空间中确定的目标文本意群也可以是一个或多个。
沿用上例,在确定各个样本问题文本分别对应的待定向关联实体词组后,可以将各个待定向关联实体词组映射到场景定向实体词表空间,之后计算各个待定向关联实体词组与场景定向实体词表空间中包含的语境标签的词组相似度,根据计算结果确定各个样本问题文本关联的目标语境标签,确定样本问题文本{《静夜思》的中心思想是什么?}关联的目标语境标签为“思想”;样本问题文本{请提供一首描写边塞风景的古诗}关联的目标语境标签为“边塞”;……样本问题文本{《黄鹤楼》的作者是谁?}关联的目标语境标签为“景色”;此时即可结合样本问题文本对应的样本词组和语境标签确定各个样本问题文本分别对应的目标文本意群,其中样本问题文本{《静夜思》的中心思想是什么?}对应的目标文本意群是古典诗词《静夜思》对应的初始文本意群,{请提供一首描写边塞风景的古诗}对应的目标文本意群是古典诗词《使至塞上》对应的初始文本意群,……{《黄鹤楼》的作者是谁?}对应的目标文本意群是古典诗词《黄鹤楼》对应的初始文本意群,以用于后续训练古典诗词问答模型。
综上,通过计算词组相似度的方式从场景定向词表空间中确定样本问题文本对应的目标文本意群,可以有效的提高确定目标文本意群的精准度,同时保证后续问答模型可以精准的学习语义关联关系,从而训练出满足需求的问答模型。
步骤S108,利用所述目标文本意群和所述训练样本对初始问答模型进行训练,直至获得满足训练停止条件的目标问答模型。
具体的,在上述确定训练样本对应的目标文本意群的基础上,进一步的,此时即可结合目标文本意群和训练样本对初始问答模型进行训练,使得初始问答模型可以学习训练样本中的样本问题文本与目标文本意群的细粒度语义关联关系,之后通过不断的迭代和优化,即可获得满足训练停止条件的目标问答模型。其中训练停止条件可以是训练迭代次数或损失值比较,实际应用中,可以根据需求设定训练停止条件,本实施例在此不作任何限定。
实际应用中,由于不同领域的问答系统具有不同的架构,为了能够针对该领域的问答系统训练出预测精准度更好的问答模型,可以整合多个不同功能的模块组件问答系统。如在古典诗词问答领域,其涉及的古典诗词问答系统可以引入语境识别注意力模块,通过设置语境判别标签,采用基于深层语义单元的中文分词模块,同时利用BiLSTM建立标签语句和诗词文本语句的词级隐层状态层分布表征,计算融合标签和文本语义信息的注意力向量矩阵,可以快速的实现实体发现和分类提取,同时配置记忆单元,提升了实体提取准确度,避免重复提取诗词问答语境关联的实体词,从而有效的保证了可以对古典诗词相关的问题作出精准的回答。
具体实施时,利用BiLSTM实则是从问句类型、高频实体、关联实体三个维度来解析任务,建立对应的三个可学习权重矩阵,通过多轮迭代学习,建立起诗词语料和不同类型问句间的语义映射矩阵,根据学习效果设计损失函数,给三个矩阵赋予不同的权重,最终拼接为一个权重矩阵,用于实时问答系统。
进一步的,在利用目标文本意群和训练样本对初始问答模型进行训练的过程中,由于初始问答模型为有监督模型,因此需要经过不断的优化和调参才能够完成模型的训练,本实施例中,训练过程参见步骤S1082至步骤S1084:
步骤S1082,将所述目标文本意群和所述训练样本中的所述样本问题文本输入至所述初始问答模型进行处理,获得预测答案文本。
具体的,预测答案文本具体是指初始问答模型对训练样本中的样本问题文本进行预测处理后,从目标文本意群中查询到的答案所对应文本。
进一步的,初始问答模型在训练的过程中,实则是学习目标文本意群和样本问题文本之间的语义关联关系,以通过调参的方式将语义关联关系不断优化,从而得到满足训练停止条件的目标问答模型,本实施例中,具体实现方式如下:
基于所述样本问题文本生成词单元向量以及场景标签向量,以及基于所述目标文本意群生成意群向量;
对所述词单元向量和所述场景标签向量进行整合,获得所述样本问题文本对应的样本问题向量;
将所述样本问题向量和所述意群向量输入至所述初始问答模型进行处理,获得所述预测答案文本。
具体的,词单元向量具体是指基于样本问题文本构建的词法句法单元词向量,相应的,场景标签向量具体是指基于样本问题文本构建的能够表达样本问题文本场景的标签向量。意群向量具体是指基于目标文本意群所构建的向量表达,用于作为模型的输入方便模型进行处理。
基于此,在确定目标文本意群和训练样本中的样本问题文本后,可以基于样本问题文本生成词单元向量和场景标签向量,同时基于目标文本意群生成意群向量,之后对词单元向量和场景标签向量进行整合,获得样本问题文本对应的样本问题向量,最后将转换为向量表达的内容(样本问题向量和意群向量)同时输入至初始问答模型进行处理,即可通过模型预测出样本问题文本对应的预测答案文本,以方便后续结合训练样本中样本答案文本对模型进行优化。
更进一步的,初始问答模型从向量表达进行预测答案处理的过程如下所述:
将所述样本问题向量和所述意群向量输入至所述初始问答模型,通过所述初始问答模型中的融合模块对所述样本问题向量和所述意群向量进行处理,获得融合向量;
将所述融合向量输入至所述初始问答模型中的识别模块进行处理,获得关联实体中心词和上下文场景分布;
通过所述初始问答模型中的输出层对所述关联实体中心词和所述上下文场景分布进行处理,获得所述预测答案文本。
具体的,融合模块具体是指在模型内部进行样本问题文本和目标文本意群进行信息融合的模块,相应的,融合向量即为样本问题向量和所述意群向量经过融合处理后得到的向量表达;相应的,识别模块具体是指模型内部进行识别融合后的向量中关联实体中心词和上下文场景分布的模块,相应的,关联实体中心词和上下文场景分布具体是指从语义维度和场景维度定位预测答案文本所所用的信息。
基于此,在获得样本问题向量和意图向量后,可以将样本问题向量和意图向量输入至初始问答模型,通过初始问答模型中的融合模块对样本问题向量和意图向量进行处理,以获得融合向量,之后将融合向量输入至初始问答模型中的识别模块进行处理,获得关联实体中心词和上下文场景分布;最后通过初始问答模型中的输出层对所述关联实体中心词和所述上下文场景分布进行处理,即可获得所述预测答案文本。
步骤S1084,基于所述预测答案文本和所述训练样本中的样本答案文本对所述初始问答模型进行优化,直至获得满足训练停止条件的所述目标问答模型。
具体的,在获得预测答案文本后,此时可以通过训练样本中的样本答案文本结合预测答案文本确定损失函数,之后基于损失函数对初始问答模型进行调参/优化,并不断的重复上述模型训练过程,即可得到满足训练停止条件的目标问答模型。
参见图2所示,当样本问题文本为{《静夜思》表达了作者什么感情}的情况下,此时可以通过提取样本问题文本对应的词法句法单元词向量以及场景标签向量进行融合,获得样本问题向量,之后通过古典诗词问答系统中的语义依存分析工具对样本问题向量进行处理,再对处理结果进行文本自注意计算单元进行自注意力计算,获得待定向关联实体词组;而在此过程中,问答模型将通过BiLSTM权重矩阵训练模块训练出任务导向型的诗词语料指针权重矩阵,使之在进行问答处理时,可以结合文本意群和该矩阵定位细粒度诗词实体词组,即通过细粒度诗词实体词组即可映射出预测答案文本,以根据该预测答案文本对模型进行优化,直至获得满足训练停止条件的古典诗词问答系统,实现在进行古典诗词问答处理时,可以精准的作出答复。
本申请提供一种问答模型的训练方法,通过构建样本语料对应的初始文本意群后,将基于初始文本意群生成样本语料对应的场景定向词表空间,此时为模型训练准备了充足的语料;之后获取训练样本,并确定训练样本对应的样本词组,利用样本词组查询场景定向词表空间,以根据查询结果确定训练样本对应的目标文本意群,最后根据目标文本意群和训练样本对初始问答模型进行训练,直至满足训练停止条件,即可获得目标问答模型;实现了从语义层面捕捉问题和语料间的关联,有效的保证了训练后的问答模型的预测精准度,并且在准备阶段利用丰富的样本语料构建场景定向词表空间,有效的提高了问答模型的处理能力,从而实现精准高效的完成问答处理任务。
与上述方法实施例相对应,本申请还提供了问答模型的训练装置实施例,图3示出了本申请一实施例提供的一种问答模型的训练装置的结构示意图。如图3所示,该装置包括:
构建模块302,被配置为构建样本语料对应的初始文本意群,并基于所述初始文本意群生成所述样本语料对应的场景定向词表空间;
获取模块304,被配置为获取训练样本,并确定所述训练样本对应的样本词组;
确定模块306,被配置为基于所述样本词组查询所述场景定向词表空间,根据查询结果确定所述训练样本对应的目标文本意群;
训练模块308,被配置为利用所述目标文本意群和所述训练样本对初始问答模型进行训练,直至获得满足训练停止条件的目标问答模型。
一个可选的实施例中,所述构建模块302进一步被配置为:
为所述样本语料添加语境标签,以及提取所述初始文本意群中的初始词组;建立所述语境标签与所述初始文本意群的对应关系,并根据所述对应关系和初始词组构建所述样本语料对应的所述场景定向词表空间。
一个可选的实施例中,所述构建模块302进一步被配置为:
提取所述样本语料的多个初始特征,并对所述多个初始特征进行预处理获得多个目标特征;计算各个目标特征与所述样本语料的语境相似度,根据语境相似度计算结果选择至少一个目标特征作为所述语境标签,并添加至所述样本语料。
一个可选的实施例中,所述确定模块306进一步被配置为:
将所述样本词组映射到所述场景定向词表空间,计算所述样本词组与所述语境标签的词组相似度;根据词组相似度计算结果确定目标语境标签,并将所述目标语境标签对应的初始文本意群作为所述目标文本意群。
一个可选的实施例中,所述获取模块304进一步被配置为:
对所述训练样本进行解析,获得所述训练样本中的样本问题文本;提取所述样本问题文本中的第一词单元和第二词单元,基于所述第一词单元和所述第二词单元构建所述样本词组。
一个可选的实施例中,所述训练模块308进一步被配置为:
将所述目标文本意群和所述训练样本中的所述样本问题文本输入至所述初始问答模型进行处理,获得预测答案文本;基于所述预测答案文本和所述训练样本中的样本答案文本对所述初始问答模型进行优化,直至获得满足训练停止条件的所述目标问答模型。
一个可选的实施例中,所述训练模块308进一步被配置为:
基于所述样本问题文本生成词单元向量以及场景标签向量,以及基于所述目标文本意群生成意群向量;对所述词单元向量和所述场景标签向量进行整合,获得所述样本问题文本对应的样本问题向量;将所述样本问题向量和所述意群向量输入至所述初始问答模型进行处理,获得所述预测答案文本。
一个可选的实施例中,所述训练模块308进一步被配置为:
将所述样本问题向量和所述意群向量输入至所述初始问答模型,通过所述初始问答模型中的融合模块对所述样本问题向量和所述意群向量进行处理,获得融合向量;将所述融合向量输入至所述初始问答模型中的识别模块进行处理,获得关联实体中心词和上下文场景分布;通过所述初始问答模型中的输出层对所述关联实体中心词和所述上下文场景分布进行处理,获得所述预测答案文本。
本申请提供的问答模型的训练装置,通过构建样本语料对应的初始文本意群后,将基于初始文本意群生成样本语料对应的场景定向词表空间,此时为模型训练准备了充足的语料;之后获取训练样本,并确定训练样本对应的样本词组,利用样本词组查询场景定向词表空间,以根据查询结果确定训练样本对应的目标文本意群,最后根据目标文本意群和训练样本对初始问答模型进行训练,直至满足训练停止条件,即可获得目标问答模型;实现了从语义层面捕捉问题和语料间的关联,有效的保证了训练后的问答模型的预测精准度,并且在准备阶段利用丰富的样本语料构建场景定向词表空间,有效的提高了问答模型的处理能力,从而实现精准高效的完成问答处理任务。
上述为本实施例的一种问答模型的训练装置的示意性方案。需要说明的是,该问答模型的训练装置的技术方案与上述的问答模型的训练方法的技术方案属于同一构思,问答模型的训练装置的技术方案未详细描述的细节内容,均可以参见上述问答模型的训练方法的技术方案的描述。
此外,装置实施例中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块,各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架,而不应当理解为主要通过硬件方式实现该解决方案的实体装置。
本实施例还提供了一种文本处理方法,图4示出了根据本申请一实施例提供的一种文本处理方法的流程图,具体包括以下步骤:
步骤S402,获取用户上传的问题文本。
步骤S404,将所述问题文本输入至所述问答模型的训练方法中的目标问答模型进行处理,获得答案文本。
步骤S406,基于所述答案文本对回复界面进行更新,并向所述用户展示更新后的所述回复界面。
举例说明,当用户输入问题文本为{请提供一首边塞诗}的情况下,可以将问题文本输入至古典诗词问答模型进行处理,根据预测结果获得答案文本《使至塞上》,此时为了能够向用户展示古典诗词《使至塞上》,则可以基于《使至塞上》的诗词正文对向用户展示的回复界面进行更新,根据更新结果向用户展示包含《使至塞上》的诗词正文的回复界面。
综上,通过使用上述训练方法获得的目标问答模型进行问题文本的处理,可以有效的提高回复精准度,并且响应速度更快,从而提高用户的使用体验。
下述结合附图5,以本申请提供的方法对古诗词问答进行回答的应用为例,对所述方法进行进一步说明。其中,图5示出了本申请一实施例提供的一种应用于古诗词问答场景中的处理流程图,具体包括以下步骤:
步骤S502,构建古典诗词语料对应的初始文本意群。
在构建古典诗词语料对应的初始文本意群的过程中,将通过对各个古典诗词语料的句子按照意思和结构划分出多个成分,多个成分即可组成相对应的样本语料所对应的初始文本意群。
步骤S504,基于初始文本意群生成场景定向实体词表空间。
在得到古典诗词语料对应的初始文本意群后,此时可以对各个古典诗词语料添加语境标签,同时提取各个初始文本意群中的初始词组,即添加的语境标签包括{思乡;离别;边塞;友谊;景色;悲伤……壮志},初始文本意群的初始词组由名词性原词和动词短语词干组成。
进一步的,在确定语境标签和初始词组后,可以建立语境标签与初始问题意群的对应关系,之后利用对应关系和初始词组构建古典诗词语料对应的场景定向实体词表空间。
步骤S506,获取训练样本,并确定训练样本中样本问题文本对应的待定向关联实体词组。
在获取到训练样本后,可以从训练样本中提取样本问题文本,并提取样本问题文本中的名词性原词和动词短语词干,之后将二者进行整合,生成待定向关联实体词组,以用于后续进行古典诗词问答模型的训练。
步骤S508,将待定向关联实体词组映射到场景定向实体词表空间,计算待定向关联实体词组与空间中包含的语境标签的词组相似度。
步骤S510,根据词组相似度计算结果确定目标语境标签,并将目标语境标签对应的初始文本意群作为样本问题文本对应的目标文本意群。
将待定向关联实体词组映射到场景定向实体词表空间后,可以计算待定向关联实体词组与场景定向实体词表空间中包含的语境标签的词组相似度,之后选择词组相似度最高的语境标签作为目标语境标签,之后从场景定向实体词表空间确定该语境标签对应的初始文本意群,选择该初始文本意群作为目标文本意群进行后续的模型训练。
步骤S512,利用目标文本意群以及训练样本中包含的样本问题文本和样本答案文本对古典诗词问答模型进行训练,直至获得满足训练停止条件的目标古典诗词问答模型。
此时,可以结合目标文本意群和训练样本中包含的样本问题文本和样本答案文本对古典诗词问答模型进行训练,使得古典诗词问答模型可以学习不同的问题类型与目标文本意群的细粒度语义关联关系,之后通过不断的迭代和优化,即可获得满足训练停止条件的目标古典诗词问答模型。
步骤S514,接收用户输入的待回答问题文本。
当古典诗词问答模型训练完成后,即可进行复用,此时接收到用户输入的待回答问题文本是{请提供一首描写思乡之情的古诗}。
步骤S516,将待回答问题文本输入至目标古典诗词问答模型,获得目标答案文本。
步骤S518,基于目标答案文本对回复界面进行更新,并向用户展示更新后的回复界面。
通过目标古典诗词问答模型对待回答问题文本{请提供一首描写思乡之情的古诗}进行处理,获得答案文本为“静夜思”,此时基于古诗《静夜思》及其对应的正文对回复界面进行更新,即可向用户展示具有《静夜思》正文的回复界面。
综上所述,通过上述方式对问答模型进行训练,有效的保证了训练后的问答模型的预测精准度,并且在准备阶段利用丰富的样本语料构建场景定向词表空间,有效的提高了问答模型的处理能力,从而实现精准高效的完成问答处理任务。与上述方法实施例相对应,本申请还提供了文本处理装置实施例,图,6示出了本申请一实施例提供的一种文本处理装置的结构示意图。如图6所示,该装置包括:
获取文本模块602,被配置为获取用户上传的问题文本;
文本处理模块604,被配置为将所述问题文本输入至所述问答模型的训练方法中的目标问答模型进行处理,获得答案文本;
界面展示模块606,被配置为基于所述答案文本对回复界面进行更新,并向所述用户展示更新后的所述回复界面。
综上,通过使用上述训练方法获得的目标问答模型进行问题文本的处理,可以有效的提高回复精准度,并且响应速度更快,从而提高用户的使用体验。
上述为本实施例的一种文本处理装置的示意性方案。需要说明的是,该文本处理装置的技术方案与上述的文本处理方法的技术方案属于同一构思,文本处理装置的技术方案未详细描述的细节内容,均可以参见上述文本处理方法的技术方案的描述。此外,装置实施例中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块,各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架,而不应当理解为主要通过硬件方式实现该解决方案的实体装置。
图7示出了根据本申请一实施例提供的一种计算设备700的结构框图。该计算设备700的部件包括但不限于存储器710和处理器720。处理器720与存储器710通过总线730相连接,数据库750用于保存数据。
计算设备700还包括接入设备740,接入设备740使得计算设备700能够经由一个或多个网络760通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备740可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本申请的一个实施例中,计算设备700的上述部件以及图7中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图7所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备700可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备700还可以是移动式或静止式的服务器。
其中,处理器720用于执行所述问答模型的训练方法或文本处理方法的计算机可执行指令。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的问答模型的训练方法或文本处理方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述问答模型的训练方法或文本处理方法的技术方案的描述。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时以用于问答模型的训练方法或文本处理方法。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的问答模型的训练方法或文本处理方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述问答模型的训练方法或文本处理方法的技术方案的描述。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本申请的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims (15)

1.一种样本处理方法,其特征在于,包括:
获取样本语料,并构建所述样本语料对应的初始文本意群;
为所述样本语料添加语境标签,以及提取所述初始文本意群对应的初始词组;
建立所述语境标签和所述初始文本意群的对应关系;
根据所述对应关系和所述初始词组构建所述样本语料对应的场景定向词表空间。
2.根据权利要求1所述的样本处理方法,其特征在于,所述根据所述对应关系和所述初始词组构建所述样本语料对应的场景定向词表空间步骤执行之后,还包括:
获取训练样本,并确定所述训练样本对应的样本词组;
基于所述样本词组查询所述场景定向词表空间,根据查询结果确定所述训练样本对应的目标文本意群;
利用所述目标文本意群和所述训练样本对初始问答模型进行训练,直至获得满足训练停止条件的目标问答模型。
3.根据权利要求1所述的样本处理方法,其特征在于,所述为所述样本语料添加语境标签,包括:
提取所述样本语料的多个初始特征,并对所述多个初始特征进行预处理获得多个目标特征;
计算各个目标特征与所述样本语料的语境相似度,根据语境相似度计算结果选择至少一个目标特征作为所述语境标签,并添加至所述样本语料。
4.根据权利要求2所述的样本处理方法,其特征在于,所述基于所述样本词组查询所述场景定向词表空间,根据查询结果确定所述训练样本对应的目标文本意群,包括:
将所述样本词组映射到所述场景定向词表空间,计算所述样本词组与所述语境标签的词组相似度;
根据词组相似度计算结果确定目标语境标签,并将所述目标语境标签对应的初始文本意群作为所述目标文本意群。
5.根据权利要求2所述的样本处理方法,其特征在于,所述获取训练样本,包括:
获取与所述样本语料具有关联关系的所述训练样本;
其中,所述利用所述目标文本意群和所述训练样本对初始问答模型进行训练,直至获得满足训练停止条件的目标问答模型,包括:
利用与所述样本语料具有关联关系的所述训练样本和所述目标文本意群对初始问答模型进行训练,直至获得满足训练停止条件的目标问答模型。
6.根据权利要求2所述的样本处理方法,其特征在于,所述确定所述训练样本对应的样本词组,包括:
对所述训练样本进行解析,获得所述训练样本中的样本问题文本;
提取所述样本问题文本中的第一词单元和第二词单元,基于所述第一词单元和所述第二词单元构建所述样本词组。
7.根据权利要求6所述的样本处理方法,其特征在于,所述利用所述目标文本意群和所述训练样本对初始问答模型进行训练,直至获得满足训练停止条件的目标问答模型,包括:
将所述目标文本意群和所述训练样本中的所述样本问题文本输入至所述初始问答模型进行处理,获得预测答案文本;
基于所述预测答案文本和所述训练样本中的样本答案文本对所述初始问答模型进行优化,直至获得满足训练停止条件的所述目标问答模型。
8.根据权利要求7所述的样本处理方法,其特征在于,所述将所述目标文本意群和所述训练样本中的所述样本问题文本输入至所述初始问答模型进行处理,获得预测答案文本,包括:
基于所述样本问题文本生成词单元向量以及场景标签向量,以及基于所述目标文本意群生成意群向量;
对所述词单元向量和所述场景标签向量进行整合,获得所述样本问题文本对应的样本问题向量;
将所述样本问题向量和所述意群向量输入至所述初始问答模型进行处理,获得所述预测答案文本。
9.根据权利要求8所述的样本处理方法,其特征在于,所述将所述样本问题向量和所述意群向量输入至所述初始问答模型进行处理,获得所述预测答案文本,包括:
将所述样本问题向量和所述意群向量输入至所述初始问答模型,通过所述初始问答模型中的融合模块对所述样本问题向量和所述意群向量进行处理,获得融合向量;
将所述融合向量输入至所述初始问答模型中的识别模块进行处理,获得关联实体中心词和上下文场景分布;
通过所述初始问答模型中的输出层对所述关联实体中心词和所述上下文场景分布进行处理,获得所述预测答案文本。
10.根据权利要求3所述的样本处理方法,其特征在于,所述对所述多个初始特征进行预处理获得多个目标特征,包括:
对所述多个初始特征进行清洗,根据清洗处理结果确定所述多个目标特征;
其中,所述根据语境相似度计算结果选择至少一个目标特征作为所述语境标签,包括:
将所述语境相似度与预设的语境相似度阈值进行比较,选择大于等于所述语境相似度阈值的目标特征作为所述语境标签;或者
根据语境相似度计算结果选择相似度最大的目标特征作为所述语境标签。
11.一种样本处理装置,其特征在于,包括:
获取模块,被配置为获取样本语料,并构建所述样本语料对应的初始文本意群;
添加模块,被配置为为所述样本语料添加语境标签,以及提取所述初始文本意群对应的初始词组;
建立模块,被配置为建立所述语境标签和所述初始文本意群的对应关系;
构建模块,被配置为根据所述对应关系和所述初始词组构建所述样本语料对应的场景定向词表空间。
12.一种问答模型的训练方法,其特征在于,包括:
获取训练样本,并确定所述训练样本对应的样本词组;
基于所述样本词组查询如权利要求1-10任一项所述方法中的场景定向词表空间,根据查询结果确定所述训练样本对应的目标文本意群;
利用所述目标文本意群和所述训练样本对初始问答模型进行训练,直至获得满足训练停止条件的目标问答模型。
13.一种问答模型的训练装置,其特征在于,包括:
获取样本模块,被配置为获取训练样本,并确定所述训练样本对应的样本词组;
确定意群模块,被配置为基于所述样本词组查询如权利要求1-10任一项所述方法中的场景定向词表空间,根据查询结果确定所述训练样本对应的目标文本意群;
训练模型模块,被配置为利用所述目标文本意群和所述训练样本对初始问答模型进行训练,直至获得满足训练停止条件的目标问答模型。
14.一种计算设备,其特征在于,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令实现权利要求1至10或12任意一项所述方法的步骤。
15.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1至10或12任意一项所述方法的步骤。
CN202111256825.6A 2021-06-16 2021-06-16 样本处理方法及装置 Pending CN113987147A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111256825.6A CN113987147A (zh) 2021-06-16 2021-06-16 样本处理方法及装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202111256825.6A CN113987147A (zh) 2021-06-16 2021-06-16 样本处理方法及装置
CN202110665052.0A CN113127624B (zh) 2021-06-16 2021-06-16 问答模型的训练方法及装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN202110665052.0A Division CN113127624B (zh) 2021-06-16 2021-06-16 问答模型的训练方法及装置

Publications (1)

Publication Number Publication Date
CN113987147A true CN113987147A (zh) 2022-01-28

Family

ID=76783260

Family Applications (3)

Application Number Title Priority Date Filing Date
CN202111258418.9A Pending CN113901191A (zh) 2021-06-16 2021-06-16 问答模型的训练方法及装置
CN202110665052.0A Active CN113127624B (zh) 2021-06-16 2021-06-16 问答模型的训练方法及装置
CN202111256825.6A Pending CN113987147A (zh) 2021-06-16 2021-06-16 样本处理方法及装置

Family Applications Before (2)

Application Number Title Priority Date Filing Date
CN202111258418.9A Pending CN113901191A (zh) 2021-06-16 2021-06-16 问答模型的训练方法及装置
CN202110665052.0A Active CN113127624B (zh) 2021-06-16 2021-06-16 问答模型的训练方法及装置

Country Status (1)

Country Link
CN (3) CN113901191A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114611529A (zh) * 2022-03-15 2022-06-10 平安科技(深圳)有限公司 意图识别方法和装置、电子设备及存储介质
CN117574286A (zh) * 2024-01-11 2024-02-20 阿里健康科技(杭州)有限公司 标签值的确定方法、装置、设备和存储介质

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113962315B (zh) * 2021-10-28 2023-12-22 北京百度网讯科技有限公司 模型预训练方法、装置、设备、存储介质以及程序产品
CN115238679B (zh) * 2022-07-14 2024-09-17 腾讯科技(深圳)有限公司 同义词的挖掘方法、装置、计算机可读介质及电子设备
CN116204726B (zh) * 2023-04-28 2023-07-25 杭州海康威视数字技术股份有限公司 一种基于多模态模型的数据处理方法、装置及设备
CN116450796B (zh) * 2023-05-17 2023-10-17 中国兵器工业计算机应用技术研究所 一种智能问答模型构建方法及设备
CN117271751B (zh) * 2023-11-16 2024-02-13 北京百悟科技有限公司 交互方法、装置、设备和存储介质
CN117725414B (zh) * 2023-12-13 2024-07-19 北京海泰方圆科技股份有限公司 训练内容生成模型方法、确定输出内容方法、装置及设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677779B (zh) * 2015-12-30 2018-10-30 山东大学 一种基于评分机制的反馈型问题类型分类器系统及其工作方法
US10776581B2 (en) * 2018-02-09 2020-09-15 Salesforce.Com, Inc. Multitask learning as question answering
CN108959412B (zh) * 2018-06-07 2021-09-14 出门问问信息科技有限公司 标注数据的生成方法、装置、设备及存储介质
CN109446399A (zh) * 2018-10-16 2019-03-08 北京信息科技大学 一种影视实体搜索方法
KR102200212B1 (ko) * 2018-12-07 2021-01-08 서울대학교 산학협력단 불확실성 예측을 위한 샘플링 모델 생성 장치 및 방법, 불확실성 예측 장치

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114611529A (zh) * 2022-03-15 2022-06-10 平安科技(深圳)有限公司 意图识别方法和装置、电子设备及存储介质
CN114611529B (zh) * 2022-03-15 2024-02-02 平安科技(深圳)有限公司 意图识别方法和装置、电子设备及存储介质
CN117574286A (zh) * 2024-01-11 2024-02-20 阿里健康科技(杭州)有限公司 标签值的确定方法、装置、设备和存储介质
CN117574286B (zh) * 2024-01-11 2024-05-24 阿里健康科技(杭州)有限公司 标签值的确定方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN113901191A (zh) 2022-01-07
CN113127624A (zh) 2021-07-16
CN113127624B (zh) 2021-11-16

Similar Documents

Publication Publication Date Title
CN113127624B (zh) 问答模型的训练方法及装置
US20230100376A1 (en) Text sentence processing method and apparatus, computer device, and storage medium
CN110301117B (zh) 用于在会话中提供响应的方法和装置
CN117521675A (zh) 基于大语言模型的信息处理方法、装置、设备及存储介质
CN110795913B (zh) 一种文本编码方法、装置、存储介质及终端
CN111930914A (zh) 问题生成方法和装置、电子设备以及计算机可读存储介质
WO2023137911A1 (zh) 基于小样本语料的意图分类方法、装置及计算机设备
EP4113357A1 (en) Method and apparatus for recognizing entity, electronic device and storage medium
CN114519356B (zh) 目标词语的检测方法、装置、电子设备及存储介质
WO2023231576A1 (zh) 混合语言语音识别模型的生成方法及装置
CN116578688A (zh) 基于多轮问答的文本处理方法、装置、设备及存储介质
CN109271636B (zh) 词嵌入模型的训练方法及装置
CN116541493A (zh) 基于意图识别的交互应答方法、装置、设备、存储介质
CN114358201A (zh) 基于文本的情感分类方法和装置、计算机设备、存储介质
CN114492661B (zh) 文本数据分类方法和装置、计算机设备、存储介质
CN107562729B (zh) 基于神经网络和主题强化的党建文本表示方法
CN114462425B (zh) 社交媒体文本处理方法、装置、设备及存储介质
CN118378148A (zh) 多标签分类模型的训练方法、多标签分类方法及相关装置
CN114372454B (zh) 文本信息抽取方法、模型训练方法、装置及存储介质
CN113901789A (zh) 基于门控空洞卷积和图卷积的方面级情感分析方法及系统
CN117808103A (zh) 一种基于话语级特征动态交互的共情回复生成方法
Sawant et al. Analytical and Sentiment based text generative chatbot
CN116628207A (zh) 文本分类模型的训练方法和装置、电子设备及存储介质
CN116432705A (zh) 文本生成模型构建、文本生成方法和装置、设备及介质
CN115757723A (zh) 文本处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination