CN114648022A - 文本分析方法及装置 - Google Patents
文本分析方法及装置 Download PDFInfo
- Publication number
- CN114648022A CN114648022A CN202011496219.7A CN202011496219A CN114648022A CN 114648022 A CN114648022 A CN 114648022A CN 202011496219 A CN202011496219 A CN 202011496219A CN 114648022 A CN114648022 A CN 114648022A
- Authority
- CN
- China
- Prior art keywords
- question
- answered
- word
- text
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 92
- 239000013598 vector Substances 0.000 claims description 179
- 230000011218 segmentation Effects 0.000 claims description 28
- 238000012549 training Methods 0.000 claims description 22
- 238000000926 separation method Methods 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 18
- 238000000034 method Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 13
- 230000009466 transformation Effects 0.000 claims description 13
- 238000013507 mapping Methods 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims 3
- 239000011159 matrix material Substances 0.000 description 12
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000010606 normalization Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- NZMOFYDMGFQZLS-UHFFFAOYSA-N terazosin hydrochloride dihydrate Chemical compound [H+].O.O.[Cl-].N=1C(N)=C2C=C(OC)C(OC)=CC2=NC=1N(CC1)CCN1C(=O)C1CCCO1 NZMOFYDMGFQZLS-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Probability & Statistics with Applications (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本说明书提供文本分析方法及装置,其中所述文本分析方法包括:将待分析文本拆分成多个语句,分别计算所述多个语句中的每个语句与待回答问题的相似度;根据相似度满足预设条件的目标语句和所述待回答问题构建输入序列;通过文本分析模型获得所述输入序列中的每个词单元作为待回答问题对应的答案的开始位置的概率和结束位置的概率,根据所述概率确定所述待回答问题的答案。根据本说明书的文本分析方法缩短了输入序列的长度,减轻了文本分析模型的运算量,从而提高文本分析模型的预测效率。
Description
技术领域
本说明书涉及计算机技术领域,特别涉及文本分析方法及装置。
背景技术
自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。
对于自然语言处理任务,通常选用双向注意力神经网络模型(BidirectionalEncoder Representation from Transformers,BERT)进行处理。
对于机器问答系统,现有技术中将文本段落与问题输入BERT模型预测答案,输入序列长,因此训练时间及预测时间长,导致模型效率低。
发明内容
有鉴于此,本说明书实施例提供了一种文本分析方法。本说明书同时涉及一种文本分析装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种文本分析方法,包括:
将待分析文本拆分成多个语句,分别计算所述多个语句中的每个语句与待回答问题的相似度;
根据相似度满足预设条件的目标语句和所述待回答问题构建输入序列;
通过文本分析模型获得所述输入序列中的每个词单元作为待回答问题对应的答案的开始位置的概率和结束位置的概率,根据所述概率确定所述待回答问题的答案。
可选地,分别计算所述多个语句中的每个语句与待回答问题的相似度包括:
分别将每个语句与待回答问题进行字符分割和向量化处理,获得每个词单元的词向量;
根据每个语句中的词单元的词向量,计算每个语句各自的词向量;
根据待回答问题中的词单元的词向量,计算待回答问题的词向量;
分别根据每个语句的词向量与待回答问题的词向量,计算每个语句与待回答问题的相似度。
可选地,分别计算所述多个语句中的每个语句与待回答问题的相似度包括:
分别将每个语句与待回答问题进行拼接,形成拼接文本,拼接文本包括第一文本段和第二文本段;
将拼接文本输入相似度计算模型,对拼接文本进行字符分割和向量化处理,获取拼接文本中每个词的词向量;
根据第一文本段中的每个词的词向量,计算第一文本段的词向量;
根据第二文本段中的每个词的词向量,计算第二文本段的词向量;
利用第一文本段的词向量和第二文本段的词向量,计算每个语句与待回答问题的相似度,输出相似度标识。
可选地,所述根据相似度满足预设条件的目标语句和所述待回答问题构建输入序列包括:
将相似度标识为第一相似度标识的语句确定为目标语句;
将所述目标语句和所述待回答问题进行字符分割,得到所述目标语句和所述待回答问题中的每个词单元;
根据每个词单元构建输入序列。
可选地,所述根据相似度满足预设条件的目标语句和所述待回答问题构建输入序列包括:
将相似度标识为第一相似度区段标识的语句确定为目标语句;
将所述目标语句和所述待回答问题进行字符分割,得到所述目标语句和所述待回答问题中的每个词单元;
根据每个词单元构建输入序列。
可选地,所述根据每个词单元构建输入序列包括:
通过将所述目标语句的词单元放置在前并且将所述待回答问题的词单元放置在后构建输入序列。
可选地,通过文本分析模型获得所述输入序列中的每个词单元作为待回答问题对应的答案的开始位置的概率和结束位置的概率,包括:
针对所述输入序列中的每个词单元计算词向量、分隔向量和位置向量;
对所述词向量、分隔向量和位置向量之和进行线性映射以及非线性变换,分别获得每一个词单元作为待回答问题对应的答案的开始位置的概率以及结束位置的概率。
可选地,根据所述概率确定所述待回答问题的答案包括:
将作为开始位置的概率最高的第一词单元与作为结束位置的概率最高的第二词单元以及所述第一词单元与所述第二词单元之间的词单元确定为所述待回答问题的答案。
可选地,所述文本分析模型通过下述方法训练得到:
获取训练样本和样本标签,所述训练样本包括样本文本和样本问题,所述样本标签包括与所述样本文本和样本问题相对应的正确答案;
将所述样本文本拆分成多个语句,分别计算所述多个语句中的每个语句与样本问题的相似度;
根据相似度满足预设条件的目标语句和所述样本问题构建输入序列;
将所述输入序列输入文本分析模型,获得所述输入序列中的每个词单元作为样本问题对应的答案的开始位置的概率和结束位置的概率,根据所述概率确定所述样本问题的预测答案;
将所述预测答案和所述正确答案进行对比,并且基于所述预测答案和所述正确答案的对比结果,对所述文本分析模型进行更新。
根据本说明书实施例的第二方面,提供了一种文本分析装置,包括:
计算模块,被配置为将待分析文本拆分成多个语句,分别计算所述多个语句中的每个语句与待回答问题的相似度;
构建模块,被配置为根据相似度满足预设条件的目标语句和所述待回答问题构建输入序列;
确定模块,被配置为通过文本分析模型获得所述输入序列中的每个词单元作为待回答问题对应的答案的开始位置的概率和结束位置的概率,根据所述概率确定所述待回答问题的答案。
可选地,所述计算模块还被配置为:
分别将每个语句与待回答问题进行字符分割和向量化处理,获得每个词单元的词向量;
根据每个语句中的词单元的词向量,计算每个语句各自的词向量;
根据待回答问题中的词单元的词向量,计算待回答问题的词向量;
分别根据每个语句的词向量与待回答问题的词向量,计算每个语句与待回答问题的相似度。
可选地,所述计算模块还被配置为:
分别将每个语句与待回答问题进行拼接,形成拼接文本,拼接文本包括第一文本段和第二文本段;
将拼接文本输入相似度计算模型,对拼接文本进行字符分割和向量化处理,获取拼接文本中每个词的词向量;
根据第一文本段中的每个词的词向量,计算第一文本段的词向量;
根据第二文本段中的每个词的词向量,计算第二文本段的词向量;
利用第一文本段的词向量和第二文本段的词向量,计算每个语句与待回答问题的相似度,输出相似度标识。
可选地,所述构建模块还被配置为:
将相似度标识为第一相似度标识的语句确定为目标语句;
将所述目标语句和所述待回答问题进行字符分割,得到所述目标语句和所述待回答问题中的每个词单元;
根据每个词单元构建输入序列。
可选地,所述构建模块还被配置为:
将相似度标识为第一相似度区段标识的语句确定为目标语句;
将所述目标语句和所述待回答问题进行字符分割,得到所述目标语句和所述待回答问题中的每个词单元;
根据每个词单元构建输入序列。
可选地,所述构建模块还被配置为:
通过将所述目标语句的词单元放置在前并且将所述待回答问题的词单元放置在后构建输入序列。
可选地,所述确定模块还被配置为:
针对所述输入序列中的每个词单元计算词向量、分隔向量和位置向量;
对所述词向量、分隔向量和位置向量之和进行线性映射以及非线性变换,分别获得每一个词单元作为待回答问题对应的答案的开始位置的概率以及结束位置的概率。
可选地,所述确定模块还被配置为:
将作为开始位置的概率最高的第一词单元与作为结束位置的概率最高的第二词单元以及所述第一词单元与所述第二词单元之间的词单元确定为所述待回答问题的答案。
可选地,所述文本分析装置还包括训练模块,所述训练模块被配置为:
获取训练样本和样本标签,所述训练样本包括样本文本和样本问题,所述样本标签包括与所述样本文本和样本问题相对应的正确答案;
将所述样本文本拆分成多个语句,分别计算所述多个语句中的每个语句与样本问题的相似度;
根据相似度满足预设条件的目标语句和所述样本问题构建输入序列;
将所述输入序列输入文本分析模型,获得所述输入序列中的每个词单元作为样本问题对应的答案的开始位置的概率和结束位置的概率,根据所述概率确定所述样本问题的预测答案;
将所述预测答案和所述正确答案进行对比,并且基于所述预测答案和所述正确答案的对比结果,对所述文本分析模型进行更新。
根据本说明书实施例的第三方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令:
将待分析文本拆分成多个语句,分别计算所述多个语句中的每个语句与待回答问题的相似度;
根据相似度满足预设条件的目标语句和所述待回答问题构建输入序列;
通过文本分析模型获得所述输入序列中的每个词单元作为待回答问题对应的答案的开始位置的概率和结束位置的概率,根据所述概率确定所述待回答问题的答案。
根据本说明书实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现所述文本分析方法的步骤。
根据本说明书实施例的第五方面,提供了一种芯片,其存储有计算机指令,该指令被处理器执行时实现如前所述文本分析方法的步骤。
本说明书提供的文本分析方法,通过将待分析文本拆分成多个语句,分别计算每个语句与待回答问题的相似度;根据相似度满足预设条件的目标语句和所述待回答问题构建输入序列;通过文本分析模型获得输入序列中的每个词单元作为待回答问题对应的答案的开始位置的概率和结束位置的概率,根据概率确定待回答问题的答案。根据本说明书的文本分析方法并非将段落与问题直接构建输入序列,而是经过文本拆分并且将相似度高的语句与问题构建输入序列,缩短了输入序列的长度,减轻了文本分析模型的运算量,从而提高文本分析模型的预测效率。
附图说明
图1是本说明书一实施例提供的一种文本分析方法的流程图;
图2是本说明书一实施例提供的一种文本分析方法的输入序列的示意图;
图3是本说明书一实施例提供的文本分析方法中的根据开始位置概率和结束位置概率确定答案的示意图;
图4是本说明书一实施例提供的一种文本分析装置的结构示意图;
图5是本说明书一实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“响应于确定”。
首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
BERT模型:谷歌于2018年10月提出的双向注意力神经网络模型。BERT模型通过拼接问题与文章,利用注意力机制获取文章信息以及问题与文章之间的相互依赖关系,从而获得问题与文章每个词单元的相互依赖表示向量,最终通过线性映射与非线性变换分别获得每个词单元作为答案的开始位置与结束位置的概率。
词单元(token):对输入文本做任何实际处理前,都需要将其分割成诸如词、标点符号、数字或纯字母数字等语言单元,这些单元被称为词单元。对于英文文本,词单元可以是一个单词、一个标点符号、一个数字等,对于中文文本,最小的词单元可以是一个字、一个标点符号、一个数字等。
词嵌入:是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。
归一化指数函数Softmax:是逻辑函数的一种推广,它能将一个含任意实数的K维向量“压缩”到另一个K维实向量中,使得每一个元素的范围都在[0,1]之间,并且所有元素的和为1。
在本说明书中,提供了一种文本分析方法,本说明书同时涉及一种文本发分析装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1示出了本说明书一实施例提供的一种文本分析方法的处理流程图,具体包括步骤102至106。
步骤102:将待分析文本拆分成多个语句,分别计算所述多个语句中的每个语句与待回答问题的相似度。
待分析文本可以是一段文字、多段文字、一篇文章等。待分析文本和问题是数据集中给出的,对于抽取式机器问答系统,问题与待分析文本有关,待分析文本中会存在答案原文。例如,待分析文本为A公司的简介说明,“A公司由B人员在1988年创办。该公司总部在C城市,A公司旗下有D、E两个子公司,分布机构分别设立在F城市及G城市。产品线覆盖H领域,有I、G等知名产品。”,待回答问题例如可以是“A公司是由谁创办的”、“A公司是什么时候创办的”、“A公司有几个子公司”等。
待分析文本拆分时可以仅根据句号、感叹号等语句结束符进行划分,也可以根据逗号、分号等中间分隔符以及语句结束符进行划分,例如,上述A公司的简介说明可以根据句号划分为3个语句,也可以根据中间分隔符以及语句结束符划分为6个语句。
以仅根据语句结束符划分并且问题“A公司是谁创办的?”为例进行说明,得到“A公司由B人员在1988年创办。”、“该公司总部在C城市,A公司旗下有D、E两个子公司,分布机构分别设立在F城市及G城市。”以及“产品线覆盖H领域,有I、G等知名产品。”三个语句。之后,利用文本相似度算法或预先训练的深度学习模型计算划分出的每个语句与问题的文本相似度。
文本相似度算法可以采用诸如Jaro Winkler Distance、Levenshtein Distance等的编辑距离算法、杰卡德系数(Jaccard)等,此处列出的算法仅为示例,不对本说明书作出限制。具体地,划分成多个语句后,将每个语句中进行分词,可以按一个词语或一个字进行分词,得到每个语句中的多个词单元,之后计算每个词单元的词向量。根据每个语句中的每个词单元的词向量,可以得到每个语句的词嵌入。同样地,将待回答问题进行分词,得到待回答问题中的多个词单元,计算每个词单元的词向量。根据待回答问题中的每个词单元的词向量,得到待回答问题的词向量。之后利用Jaro Winkler Distance、LevenshteinDistance等编辑距离算法、杰卡德系数(Jaccard)针对每个语句的词向量与待回答问题的词向量计算相似度。
下面对利用BERT深度学习模型计算文本相似度进行说明。首先描述BERT模型的具体结构,BERT模型可以包括n个编码层,该n个编码层依次连接。每个编码层中还包括:自注意力模块、归一化模块、全连接模块以及归一化模块。将拆分完成的每个语句和问题分别输入BERT模型,嵌入层将输入序列的每个词编码成词向量,分隔向量例如仅由0和1组成,用于标识不同的句子,位置向量则通过公式计算得到,之后将三种向量的和输入至BERT模型的多个编码层,不同的编码层通过学习不同的矩阵参数,能够分别得到每个语句的词嵌入与待回答问题的词嵌入之间的相似度。
具体地,在计算待分析文本中的第一语句与待回答问题的相似度时,将第一语句与待回答问题进行拼接,形成拼接文本,第一语句与待回答问题分别形成了拼接文本中的第一文本段和第二文本段;将拼接文本输入BERT深度学习模型,对拼接形成的拼接文本进行字符分割和向量化处理,获取拼接文本中每个词的词向量;利用第一语句中的每个词的词向量计算第一语句的词向量,利用第二语句中的每个词的词向量计算第二语句的词向量,之后利用第一语句的词向量与待回答问题的词向量计算之间的相似度,输出相似度标识。利用上述方法分别针对段落中的每个语句与待回答问题计算相似度。
在一种实施例中,将第一语句与待回答问题之间通过[SEP]分割,第一语句对应位置向量(包含[CLS],[SEP])全为0,待回答问题对应位置向量(包含结尾[SEP])全为1,将第一语句与待回答问题输入至经训练的相似度计算模型中,得到拼接后的第一语句与待回答问题相似和不相似两类。该相似度计算模型在训练时,将样本语句与样本问题及标签输入模型,标签是样本语句与样本问题是否相似,例如相似标签为1,不相似标签为0。
在另一实施例中,将第一语句与待回答问题之间通过[SEP]分割,第一语句对应位置向量(包含[CLS],[SEP])全为0,待回答问题对应位置向量(包含结尾[SEP])全为1,将第一语句与待回答问题输入至经训练的相似度预测模型中,得到拼接后的第一语句与待回答问题的相似度为相似度范围例如50%至70%、70%至90%、90%至100%。该相似度预测模型在训练时,将样本语句与样本问题及标签输入模型,标签是两个语句的相似度范围,例如0%至50%、50%至70%、70%至90%、90%至100%。
步骤104:根据相似度满足预设条件的目标语句和所述待回答问题构建输入序列。
在一种实施例中,根据相似度满足预设条件的目标语句和所述待回答问题构建输入序列可以通过以下实现:将相似度标识为第一相似度标识的语句确定为目标语句;将所述目标语句和所述待回答问题进行字符分割,得到所述目标语句和所述待回答问题中的每个词单元;根据每个词单元构建输入序列。
在另一实施例中,根据相似度满足预设条件的目标语句和所述待回答问题构建输入序列可以通过以下实现:将相似度标识为第一相似度区段标识的语句确定为目标语句;将所述目标语句和所述待回答问题进行字符分割,得到所述目标语句和所述待回答问题中的每个词单元;根据每个词单元构建输入序列。
在上述得到拼接后的语句与待回答问题相似和不相似两类的实施例中,将结果为相似的多个语句与待回答问题构建输入序列。在上述得到拼接后的第一语句与待回答问题的相似度为相似度范围例如0%至50%、50%至70%、70%至90%、90%至100%的实施例中,例如可以将相似度范围为70%至100%或90%至100%的多个语句与待回答问题构建输入序列。
将相似度满足预设条件的一个或多个目标语句与问题进行拼接,相似度不满足预设条件的语句不参与预测答案。在一实施例中,根据每个词单元构建输入序列可以通过以下实现:通过将目标语句的词单元放置在前并且将待回答问题的词单元放置在后构建输入序列。实际操作时,根据目标语句和问题构建输入序列,可以通过以下实现:在第一个语句开头加[CLS]符号,在每个语句和问题末尾都加[SEP]结尾符,即输入的第一个词是起始符[CLS],可以用于之后的预测任务,最后一个词是结尾符[SEP]。
步骤106:通过文本分析模型获得所述输入序列中的每个词单元作为待回答问题对应的答案的开始位置的概率和结束位置的概率,根据所述概率确定所述待回答问题的答案。
步骤106可以通过以下实现:将输入序列输入到预先训练的BERT模型,针对所述输入序列中的每个词单元计算词向量、分隔向量和位置向量;对所述词向量、分隔向量和位置向量之和进行线性映射以及非线性变换,分别获得每一个词单元作为待回答问题对应的答案的开始位置的概率以及结束位置的概率,根据概率确定待回答问题的答案。
将输入序列输入至BERT模型,经过BERT模型的嵌入层计算上述一个或多个语句与问题中的每个词的词向量、分隔向量和位置向量。
在本实施方式中,将每个语句和问题进行分词处理得到每一个字单元,对字单元进行嵌入处理,将各个字单元转换成固定维度的词向量,即词嵌入。对每个语句和问题的字单元进行嵌入处理可以提高对待分析文本和问题的提取深度和丰富度,增强分析准确性。分隔向量是用于表明词属于哪个语句的向量,例如所有语句中的词的分隔向量的值为0,问题中的词的分隔向量为1。位置向量是表示位置的向量,可以让BERT模型在各个位置上学习一个向量表示来将序列顺序的信息考虑在内,即学习到输入的顺序属性。
下面以相似度高于阈值的语句为“A公司由B人员在1988年创办。”、问题为“A公司是谁创办的?”为例进行说明。如图2所示,分别计算出对语句与问题中的每个词进行词嵌入处理后,得到每个词对应的词向量、分隔向量和位置向量,将这三个向量之和输入BERT模型的编码层,其中,词向量表示每个词单元对应的向量,字母下标标识对应的词单元,分隔向量中的字母表示不同的语句,第一个语句为A、问题为B,位置向量中的阿拉伯数字表示该词单元在整个输入序列中的位置,在确定词单元在输入序列中的位置时,既可以将待分析文本置于待回答问题的前方,也可以将待分析文本置于待回答问题的后方。
经过对每一个词单元对应的词向量进行线性变换、维度变换得到K矩阵(key矩阵)、Q矩阵(query矩阵)和V矩阵(value矩阵),把得到的Q矩阵与K矩阵相乘,乘以一个常数,做softmax操作,最后乘上V矩阵计算出注意力(attention)分数向量。在实际应用中,可以将每一个词单元对应的注意力分数向量进行线性映射以及非线性变换,分别获得每一个词单元作为问题对应的答案的开始位置的概率以及结束位置的概率。
具体地,线性映射是从一个向量空间V到另一个向量空间W的映射。通过线性映射,以实现词向量的维度至句向量的维度的转换。非线性变换,就是把原始的特征向量做非线性变换,得到一个新的特征向量,使用这个新的特征向量来做线性的分类,则对应到原始的特征空间中,相当于做了非线性的分类。
在实际应用中,可以通过Softmax等各种方式实现,本申请对此不做限制。
下面具体描述BERT模型的具体结构,BERT模型可以包括n个编码层(注意力层),该n个编码层依次连接。每个编码层中还包括:自注意力模块、归一化模块、全连接模块以及归一化模块。将由目标语句和待回答问题组成的输入序列输入BERT模型,嵌入层将输入序列的每个词编码成词向量,分隔向量仅由0和1组成,用于标识不同的句子,位置向量则通过公式计算得到,之后将三种向量的和输入至BERT模型的多个编码层,不同的编码层通过学习不同的矩阵参数,能够得到文本中不同的信息和特征,最后一个编码层输出答案的起始概率和结束概率。
在输入n个词的情况下,BERT模型输出表示每个词作为答案的开始位置的概率的n维向量以及表示每个词作为答案的结束位置的概率的n维向量,即开始概率向量和结束概率向量,开始概率向量中的每个概率指示所输入的n个词是答案的起始词的概率,结束概率向量中的每个概率指示所输入的n个词是答案的结尾词的概率。将作为开始位置的概率最高的词与作为结束位置的概率最高的词及其之间的词作为问题的答案。以图2所示的语句和问题为例进行说明,将语句和问题中的每个词的词向量、分隔向量、位置向量输入预先训练的BERT模型之后,得到第6个词单元作为答案的开始位置的概率最高,第8个词单元作为答案的结束位置的概率最高,即获得的开始概率向量中开始概率最高的词为“B”,获得的结束概率向量中结束概率最高的词为“员”,因此将“B人员”作为问题的答案。
下面结合具体的例子对本实施例进行进一步说明。例如,假设获取到待分析文本包括“丝绸之路是古代中国与外国交通贸易和文化交往的通道”,问题包括“丝绸之路起源于哪个朝代?”。将待分析文本和待回答问题进行分词处理,生成输入序列[CLS、丝、绸……朝、代、SEP]。将上述输入序列输入至文本分析模型中,得到注意力分数向量[E1、E2、E3、E4……E37、E38],将上述注意力分数向量进行线性映射与非线性变换处理,得到第7个词单元作为答案的开始位置的概率最高,第10个词单元作为答案的结束位置的概率最高,生成答案“古代中国”。
下面结合图3进行说明,如图3所示,输入为w1至w7,输出两个序列(向量),一个序列记录输入的每个字符作为答案起始的概率,w3最大,概率为0.7,另一个序列记录输入的每个字符作为答案结束位置的概率,w5最大,概率为0.6,根据作为答案起始的概率最大的字符、作为答案结束位置的概率最大的字符及其之间的字符作为答案,答案为w3w4w5。
上文对通过文本分析模型确定待回答问题的答案的具体实现方式进行了说明。下面对文本分析模型的训练方法进行说明,文本分析模型通过下述方法训练得到:
获取训练样本和样本标签,所述训练样本包括样本文本和样本问题,所述样本标签包括与所述样本文本和样本问题相对应的正确答案;
将所述样本文本拆分成多个语句,分别计算所述多个语句中的每个语句与样本问题的相似度;
根据相似度满足预设条件的目标语句和所述样本问题构建输入序列;
将所述输入序列输入文本分析模型,获得所述输入序列中的每个词单元作为样本问题对应的答案的开始位置的概率和结束位置的概率,根据所述概率确定所述样本问题的预测答案;
将所述预测答案和所述正确答案进行对比,并且基于所述预测答案和所述正确答案的对比结果,对所述文本分析模型进行更新。
具体地,样本文本为包含有一定信息内容的书面文本,其可以是一句话、一段文字、多段文字、一篇文章或多篇文章等各种篇幅的文本,也可以是中文文本、英文文本、俄文文本等各种语言文本,本申请对此不做限制。
样本问题为要求回答或解释的题目,是与样本文本中的信息内容相关联的问题。
样本标签包括与样本文本、样本问题相对应的正确答案。需要说明的是,正确答案通常为样本文本中的内容,在样本文本中不存在样本问题的答案的情况下,正确答案为空,但是在样本问题可以根据公知常识得到正确答案的情况下,正确答案可以为根据公知常识得到的正确答案,本申请对此不做限制。
将预测答案与正确答案进行对比,若预测答案与正确答案不一致,则调整文本分析模型的参数,更新文本分析模型,并继续迭代训练;若预测答案与正确答案一致,则结束训练。
与上述方法实施例相对应,本说明书还提供了文本分析装置实施例,图4示出了本说明书一实施例提供的一种文本分析装置的结构示意图。如图4所示,该装置包括:
计算模块402,被配置为将待分析文本拆分成多个语句,分别计算所述多个语句中的每个语句与待回答问题的相似度;
构建模块404,被配置为根据相似度满足预设条件的目标语句和所述待回答问题构建输入序列;
确定模块406,被配置为通过文本分析模型获得所述输入序列中的每个词单元作为待回答问题对应的答案的开始位置的概率和结束位置的概率,根据所述概率确定所述待回答问题的答案。
可选地,所述计算模块402还被配置为:
分别将每个语句与待回答问题进行字符分割和向量化处理,获得每个词单元的词向量;
根据每个语句中的词单元的词向量,计算每个语句各自的词向量;
根据待回答问题中的词单元的词向量,计算待回答问题的词向量;
分别根据每个语句的词向量与待回答问题的词向量,计算每个语句与待回答问题的相似度。
可选地,所述计算模块402还被配置为:
分别将每个语句与待回答问题进行拼接,形成拼接文本,拼接文本包括第一文本段和第二文本段;
将拼接文本输入相似度计算模型,对拼接文本进行字符分割和向量化处理,获取拼接文本中每个词的词向量;
根据第一文本段中的每个词的词向量,计算第一文本段的词向量;
根据第二文本段中的每个词的词向量,计算第二文本段的词向量;
利用第一文本段的词向量和第二文本段的词向量,计算每个语句与待回答问题的相似度,输出相似度标识。
可选地,所述构建模块404还被配置为:
将相似度标识为第一相似度标识的语句确定为目标语句;
将所述目标语句和所述待回答问题进行字符分割,得到所述目标语句和所述待回答问题中的每个词单元;
根据每个词单元构建输入序列。
可选地,所述构建模块404还被配置为:
将相似度标识为第一相似度区段标识的语句确定为目标语句;
将所述目标语句和所述待回答问题进行字符分割,得到所述目标语句和所述待回答问题中的每个词单元;
根据每个词单元构建输入序列。
可选地,所述构建模块404还被配置为:
通过将所述目标语句的词单元放置在前并且将所述待回答问题的词单元放置在后构建输入序列。
可选地,所述确定模块406还被配置为:
针对所述输入序列中的每个词单元计算词向量、分隔向量和位置向量;
对所述词向量、分隔向量和位置向量之和进行线性映射以及非线性变换,分别获得每一个词单元作为待回答问题对应的答案的开始位置的概率以及结束位置的概率。
可选地,所述确定模块406还被配置为:
将作为开始位置的概率最高的第一词单元与作为结束位置的概率最高的第二词单元以及所述第一词单元与所述第二词单元之间的词单元确定为所述待回答问题的答案。
可选地,所述文本分析装置还包括训练模块,所述训练模块被配置为:
获取训练样本和样本标签,所述训练样本包括样本文本和样本问题,所述样本标签包括与所述样本文本和样本问题相对应的正确答案;
将所述样本文本拆分成多个语句,分别计算所述多个语句中的每个语句与样本问题的相似度;
根据相似度满足预设条件的目标语句和所述样本问题构建输入序列;
将所述输入序列输入文本分析模型,获得所述输入序列中的每个词单元作为样本问题对应的答案的开始位置的概率和结束位置的概率,根据所述概率确定所述样本问题的预测答案;
将所述预测答案和所述正确答案进行对比,并且基于所述预测答案和所述正确答案的对比结果,对所述文本分析模型进行更新。
上述为本实施例的一种文本分析装置的示意性方案。需要说明的是,该文本分析装置的技术方案与上述的文本分析方法的技术方案属于同一构思,文本分析装置的技术方案未详细描述的细节内容,均可以参见上述文本分析方法的技术方案的描述。
需要说明的是,装置权利要求中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块,各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架,而不应当理解为主要通过硬件方式实现该解决方案的实体装置。
图5示出了根据本说明书一实施例提供的一种计算设备500的结构框图。该计算设备500的部件包括但不限于存储器510和处理器520。处理器520与存储器510通过总线530相连接,数据库550用于保存数据。
计算设备500还包括接入设备540,接入设备540使得计算设备500能够经由一个或多个网络560通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备540可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备500的上述部件以及图5中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图5所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备500可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备500还可以是移动式或静止式的服务器。
其中,处理器520用于执行如下计算机可执行指令:
将待分析文本拆分成多个语句,分别计算所述多个语句中的每个语句与待回答问题的相似度;
根据相似度满足预设条件的目标语句和所述待回答问题构建输入序列;
通过文本分析模型获得所述输入序列中的每个词单元作为待回答问题对应的答案的开始位置的概率和结束位置的概率,根据所述概率确定所述待回答问题的答案。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的文本分析方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述文本分析方法的技术方案的描述。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时以用于:
将待分析文本拆分成多个语句,分别计算所述多个语句中的每个语句与待回答问题的相似度;
根据相似度满足预设条件的目标语句和所述待回答问题构建输入序列;
通过文本分析模型获得所述输入序列中的每个词单元作为待回答问题对应的答案的开始位置的概率和结束位置的概率,根据所述概率确定所述待回答问题的答案。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的文本分析方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述文本分析方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书并不受所描述的动作顺序的限制,因为依据本说明书,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。
Claims (20)
1.一种文本分析方法,其特征在于,包括:
将待分析文本拆分成多个语句,分别计算所述多个语句中的每个语句与待回答问题的相似度;
根据相似度满足预设条件的目标语句和所述待回答问题构建输入序列;
通过文本分析模型获得所述输入序列中的每个词单元作为待回答问题对应的答案的开始位置的概率和结束位置的概率,根据所述概率确定所述待回答问题的答案。
2.根据权利要求1所述的文本分析方法,其特征在于,分别计算所述多个语句中的每个语句与待回答问题的相似度包括:
分别将每个语句与待回答问题进行字符分割和向量化处理,获得每个词单元的词向量;
根据每个语句中的词单元的词向量,计算每个语句各自的词向量;
根据待回答问题中的词单元的词向量,计算待回答问题的词向量;
分别根据每个语句的词向量与待回答问题的词向量,计算每个语句与待回答问题的相似度。
3.根据权利要求1所述的文本分析方法,其特征在于,分别计算所述多个语句中的每个语句与待回答问题的相似度包括:
分别将每个语句与待回答问题进行拼接,形成拼接文本,拼接文本包括第一文本段和第二文本段;
将拼接文本输入相似度计算模型,对拼接文本进行字符分割和向量化处理,获取拼接文本中每个词的词向量;
根据第一文本段中的每个词的词向量,计算第一文本段的词向量;
根据第二文本段中的每个词的词向量,计算第二文本段的词向量;
利用第一文本段的词向量和第二文本段的词向量,计算每个语句与待回答问题的相似度,输出相似度标识。
4.根据权利要求3所述的文本分析方法,其特征在于,所述根据相似度满足预设条件的目标语句和所述待回答问题构建输入序列包括:
将相似度标识为第一相似度标识的语句确定为目标语句;
将所述目标语句和所述待回答问题进行字符分割,得到所述目标语句和所述待回答问题中的每个词单元;
根据每个词单元构建输入序列。
5.根据权利要求3所述的文本分析方法,其特征在于,所述根据相似度满足预设条件的目标语句和所述待回答问题构建输入序列包括:
将相似度标识为第一相似度区段标识的语句确定为目标语句;
将所述目标语句和所述待回答问题进行字符分割,得到所述目标语句和所述待回答问题中的每个词单元;
根据每个词单元构建输入序列。
6.根据权利要求4或5所述的文本分析方法,其特征在于,所述根据每个词单元构建输入序列包括:
通过将所述目标语句的词单元放置在前并且将所述待回答问题的词单元放置在后构建输入序列。
7.根据权利要求1所述的文本分析方法,其特征在于,通过文本分析模型获得所述输入序列中的每个词单元作为待回答问题对应的答案的开始位置的概率和结束位置的概率,包括:
针对所述输入序列中的每个词单元计算词向量、分隔向量和位置向量;
对所述词向量、分隔向量和位置向量之和进行线性映射以及非线性变换,分别获得每一个词单元作为待回答问题对应的答案的开始位置的概率以及结束位置的概率。
8.根据权利要求7所述的文本分析方法,其特征在于,根据所述概率确定所述待回答问题的答案包括:
将作为开始位置的概率最高的第一词单元与作为结束位置的概率最高的第二词单元以及所述第一词单元与所述第二词单元之间的词单元确定为所述待回答问题的答案。
9.根据权利要求1或2所述的文本分析方法,其特征在于,所述文本分析模型通过下述方法训练得到:
获取训练样本和样本标签,所述训练样本包括样本文本和样本问题,所述样本标签包括与所述样本文本和样本问题相对应的正确答案;
将所述样本文本拆分成多个语句,分别计算所述多个语句中的每个语句与样本问题的相似度;
根据相似度满足预设条件的目标语句和所述样本问题构建输入序列;
将所述输入序列输入文本分析模型,获得所述输入序列中的每个词单元作为样本问题对应的答案的开始位置的概率和结束位置的概率,根据所述概率确定所述样本问题的预测答案;
将所述预测答案和所述正确答案进行对比,并且基于所述预测答案和所述正确答案的对比结果,对所述文本分析模型进行更新。
10.一种文本分析装置,其特征在于,包括:
计算模块,被配置为将待分析文本拆分成多个语句,分别计算所述多个语句中的每个语句与待回答问题的相似度;
构建模块,被配置为根据相似度满足预设条件的目标语句和所述待回答问题构建输入序列;
确定模块,被配置为通过文本分析模型获得所述输入序列中的每个词单元作为待回答问题对应的答案的开始位置的概率和结束位置的概率,根据所述概率确定所述待回答问题的答案。
11.根据权利要求10所述的文本分析装置,其特征在于,所述计算模块还被配置为:
分别将每个语句与待回答问题进行字符分割和向量化处理,获得每个词单元的词向量;
根据每个语句中的词单元的词向量,计算每个语句各自的词向量;
根据待回答问题中的词单元的词向量,计算待回答问题的词向量;
分别根据每个语句的词向量与待回答问题的词向量,计算每个语句与待回答问题的相似度。
12.根据权利要求10所述的文本分析装置,其特征在于,所述计算模块还被配置为:
分别将每个语句与待回答问题进行拼接,形成拼接文本,拼接文本包括第一文本段和第二文本段;
将拼接文本输入相似度计算模型,对拼接文本进行字符分割和向量化处理,获取拼接文本中每个词的词向量;
根据第一文本段中的每个词的词向量,计算第一文本段的词向量;
根据第二文本段中的每个词的词向量,计算第二文本段的词向量;
利用第一文本段的词向量和第二文本段的词向量,计算每个语句与待回答问题的相似度,输出相似度标识。
13.根据权利要求12所述的文本分析装置,其特征在于,所述构建模块还被配置为:
将相似度标识为第一相似度标识的语句确定为目标语句;
将所述目标语句和所述待回答问题进行字符分割,得到所述目标语句和所述待回答问题中的每个词单元;
根据每个词单元构建输入序列。
14.根据权利要求12所述的文本分析装置,其特征在于,所述构建模块还被配置为:
将相似度标识为第一相似度区段标识的语句确定为目标语句;
将所述目标语句和所述待回答问题进行字符分割,得到所述目标语句和所述待回答问题中的每个词单元;
根据每个词单元构建输入序列。
15.根据权利要求13或14所述的文本分析装置,其特征在于,所述构建模块还被配置为:
通过将所述目标语句的词单元放置在前并且将所述待回答问题的词单元放置在后构建输入序列。
16.根据权利要求11所述的文本分析装置,其特征在于,所述确定模块还被配置为:
针对所述输入序列中的每个词单元计算词向量、分隔向量和位置向量;
对所述词向量、分隔向量和位置向量之和进行线性映射以及非线性变换,分别获得每一个词单元作为待回答问题对应的答案的开始位置的概率以及结束位置的概率。
17.根据权利要求16所述的文本分析装置,其特征在于,所述确定模块还被配置为:
将作为开始位置的概率最高的第一词单元与作为结束位置的概率最高的第二词单元以及所述第一词单元与所述第二词单元之间的词单元确定为所述待回答问题的答案。
18.根据权利要求12或13所述的文本分析装置,其特征在于,所述文本分析装置还包括训练模块,所述训练模块被配置为:
获取训练样本和样本标签,所述训练样本包括样本文本和样本问题,所述样本标签包括与所述样本文本和样本问题相对应的正确答案;
将所述样本文本拆分成多个语句,分别计算所述多个语句中的每个语句与样本问题的相似度;
根据相似度满足预设条件的目标语句和所述样本问题构建输入序列;
将所述输入序列输入文本分析模型,获得所述输入序列中的每个词单元作为样本问题对应的答案的开始位置的概率和结束位置的概率,根据所述概率确定所述样本问题的预测答案;
将所述预测答案和所述正确答案进行对比,并且基于所述预测答案和所述正确答案的对比结果,对所述文本分析模型进行更新。
19.一种计算设备,其特征在于,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,以实现下述方法:
将待分析文本拆分成多个语句,分别计算所述多个语句中的每个语句与待回答问题的相似度;
根据相似度满足预设条件的目标语句和所述待回答问题构建输入序列;
通过文本分析模型获得所述输入序列中的每个词单元作为待回答问题对应的答案的开始位置的概率和结束位置的概率,根据所述概率确定所述待回答问题的答案。
20.一种计算机可读存储介质,其特征在于,其存储有计算机指令,该指令被处理器执行时实现权利要求1至9任意一项所述文本分析方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011496219.7A CN114648022A (zh) | 2020-12-17 | 2020-12-17 | 文本分析方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011496219.7A CN114648022A (zh) | 2020-12-17 | 2020-12-17 | 文本分析方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114648022A true CN114648022A (zh) | 2022-06-21 |
Family
ID=81989663
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011496219.7A Pending CN114648022A (zh) | 2020-12-17 | 2020-12-17 | 文本分析方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114648022A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109255697A (zh) * | 2018-08-15 | 2019-01-22 | 普信恒业科技发展(北京)有限公司 | 一种基于人工智能的自动信用评估方法和系统 |
CN109766418A (zh) * | 2018-12-13 | 2019-05-17 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
CN110347802A (zh) * | 2019-07-17 | 2019-10-18 | 北京金山数字娱乐科技有限公司 | 一种文本分析方法及装置 |
CN110609886A (zh) * | 2019-09-18 | 2019-12-24 | 北京金山数字娱乐科技有限公司 | 一种文本分析方法及装置 |
-
2020
- 2020-12-17 CN CN202011496219.7A patent/CN114648022A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109255697A (zh) * | 2018-08-15 | 2019-01-22 | 普信恒业科技发展(北京)有限公司 | 一种基于人工智能的自动信用评估方法和系统 |
CN109766418A (zh) * | 2018-12-13 | 2019-05-17 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
CN110347802A (zh) * | 2019-07-17 | 2019-10-18 | 北京金山数字娱乐科技有限公司 | 一种文本分析方法及装置 |
CN110609886A (zh) * | 2019-09-18 | 2019-12-24 | 北京金山数字娱乐科技有限公司 | 一种文本分析方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230100376A1 (en) | Text sentence processing method and apparatus, computer device, and storage medium | |
CN110348535B (zh) | 一种视觉问答模型训练方法及装置 | |
CN110245229B (zh) | 一种基于数据增强的深度学习主题情感分类方法 | |
CN110781663B (zh) | 文本分析模型的训练方法及装置、文本分析方法及装置 | |
CN110347802B (zh) | 一种文本分析方法及装置 | |
CN112364660B (zh) | 语料文本处理方法、装置、计算机设备及存储介质 | |
CN113127624B (zh) | 问答模型的训练方法及装置 | |
CN110209802B (zh) | 一种提取摘要文本的方法及装置 | |
CN110633577A (zh) | 文本脱敏方法以及装置 | |
CN110609886A (zh) | 一种文本分析方法及装置 | |
CN111008266A (zh) | 文本分析模型的训练方法及装置、文本分析方法及装置 | |
CN114462385A (zh) | 一种文本分段方法及装置 | |
CN110795934B (zh) | 语句分析模型的训练方法及装置、语句分析方法及装置 | |
CN113961686A (zh) | 问答模型的训练方法及装置、问答方法及装置 | |
CN113342944B (zh) | 一种语料泛化方法、装置、设备及存储介质 | |
CN114138969A (zh) | 文本处理方法及装置 | |
CN114077655A (zh) | 一种答案抽取模型的训练方法及装置 | |
CN115934904A (zh) | 文本处理方法以及装置 | |
CN112800186B (zh) | 阅读理解模型的训练方法及装置、阅读理解方法及装置 | |
CN112328777B (zh) | 一种答案检测方法及装置 | |
CN114417863A (zh) | 词权重生成模型训练方法及装置、词权重生成方法及装置 | |
CN114398482A (zh) | 一种词典构造方法、装置、电子设备及存储介质 | |
CN114492410A (zh) | 合约信息提取方法及装置 | |
CN113590768B (zh) | 一种文本关联度模型的训练方法及装置、问答方法及装置 | |
CN114648022A (zh) | 文本分析方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |