CN110929015B - 一种多文本分析方法及装置 - Google Patents

一种多文本分析方法及装置 Download PDF

Info

Publication number
CN110929015B
CN110929015B CN201911257226.9A CN201911257226A CN110929015B CN 110929015 B CN110929015 B CN 110929015B CN 201911257226 A CN201911257226 A CN 201911257226A CN 110929015 B CN110929015 B CN 110929015B
Authority
CN
China
Prior art keywords
vector
feature
candidate answer
candidate
answer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911257226.9A
Other languages
English (en)
Other versions
CN110929015A (zh
Inventor
王勇博
唐剑波
李长亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Kingsoft Interactive Entertainment Technology Co ltd
Beijing Kingsoft Software Co Ltd
Beijing Kingsoft Digital Entertainment Co Ltd
Original Assignee
Chengdu Kingsoft Interactive Entertainment Technology Co ltd
Beijing Kingsoft Software Co Ltd
Beijing Kingsoft Digital Entertainment Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Kingsoft Interactive Entertainment Technology Co ltd, Beijing Kingsoft Software Co Ltd, Beijing Kingsoft Digital Entertainment Co Ltd filed Critical Chengdu Kingsoft Interactive Entertainment Technology Co ltd
Priority to CN201911257226.9A priority Critical patent/CN110929015B/zh
Publication of CN110929015A publication Critical patent/CN110929015A/zh
Application granted granted Critical
Publication of CN110929015B publication Critical patent/CN110929015B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种多文本分析方法及装置,其中所述多文本分析方法包括:将至少两个待分析文本和待回答问题输入预先训练好的文本分析模型中进行处理,生成所述待回答问题的至少两个候选答案和每个候选答案对应的候选答案向量;提取每个所述候选答案的特征向量;根据每个所述候选答案的所述特征向量和所述候选答案向量生成对应的拼接向量;根据所述拼接向量在所述候选答案中选取所述待回答问题的最佳答案。结合多种类型的特征之后选出最佳答案,减小了答案误判的可能性,提高了选择答案的准确率。

Description

一种多文本分析方法及装置
技术领域
本申请涉及自然语言处理技术领域,特别涉及一种多文本分析方法及装置、计算设备和计算机可读存储介质。
背景技术
自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理的应用场景,从大的方面讲,是对于语言文字的智能处理,包括阅读理解、问答对话、写作、翻译等等。其中,对于阅读理解与问答任务中,细分为单文档阅读理解问答和多文档阅读理解问答,对于阅读理解与问答任务,通常选用双向注意力神经网络模型模型(Bidirectional Encoder Representation from Transformers,BERT)进行处理。
在现有多文档阅读理解问答任务中,一般采用文本常见的基本特征,单纯使用简单的基于信息检索的少量特征,考虑不够充分全面;或者采用联合训练的方式来从多个候选答案中选择一个最优的答案,单纯利用语义特征来判断最佳答案,这种方法有时候不能精准匹配问题和答案之间的关键词或短语,经常出现误判的情况,无法在模型输出的多个候选答案中得到理想的准确答案。
因此,如何在候选答案中准确获得问题的最佳答案,就成为目前技术人员亟待解决的问题。
发明内容
有鉴于此,本申请实施例提供了一种多文本分析方法及装置、计算设备和计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本申请实施例的第一方面,提供了一种多文本分析方法,包括:
将至少两个待分析文本和待回答问题输入预先训练好的文本分析模型中进行处理,生成所述待回答问题的至少两个候选答案和每个候选答案对应的候选答案向量;
提取每个所述候选答案的特征向量;
根据每个所述候选答案的所述特征向量和所述候选答案向量生成对应的拼接向量;
根据所述拼接向量在所述候选答案中选取所述待回答问题的最佳答案。
可选的,提取每个所述候选答案的特征向量,包括:
提取每个所述候选答案的信息检索特征值和语义特征值;
根据所述信息检索特征值和所述语义特征值生成对应的特征向量。
可选的,提取每个所述候选答案的信息检索特征值和语义特征值,包括:
根据预设的信息检索特征库获取所述候选答案的信息检索特征标签;
根据所述待回答问题、所述待分析文本、所述候选答案中的至少一项以及所述信息检索特征标签获取所述候选答案对应的信息检索特征值;
根据预设的语义特征库获取所述候选答案的语义特征标签;
预先训练好的文本分析模型根据所述语义特征标签对所述待分析文本和所述待回答问题进行处理后获得所述优选答案对应的语义特征值。
可选的,根据所述信息检索特征值和所述语义特征值生成对应的特征向量,包括:
根据所述信息检索特征值生成对应的信息检索特征向量;
根据所述语义特征值生成对应的语义特征向量;
将所述信息检索特征向量和所述语义特征向量进行拼接,获得拼接后的特征向量。
可选的,根据所述信息检索特征值和所述语义特征值生成对应的特征向量,包括:
将所述信息检索特征值进行标准化处理,获得标准化信息检索特征值;
将所述语义特征值进行标准化处理,获得标准化语义特征值;
将所述标准化信息检索特征值和所述标准化语义特征值拼接,获得标准化拼接特征值;
根据所述标准化拼接特征值获得对应的特征向量。
可选的,根据所述信息检索特征值和所述语义特征值生成对应的特征向量,包括:
将所述信息检索特征值和所述语义特征值输入预先训练好的特征分类器;
所述特征分类器响应于所述信息检索特征值和所述语义特征值作为输入而生成对应的特征向量。
可选的,根据每个所述候选答案的所述特征向量和所述候选答案向量生成对应的拼接向量,包括:
将每个所述候选答案的所述特征向量和所述候选答案向量按维度进行拼接生成对应的拼接向量。
可选的,根据所述拼接向量在所述候选答案中选取所述待回答问题的最佳答案,包括:
将每个所述候选答案的拼接向量做归一化处理得到对应的候选答案分值;
选取候选答案分值最高的候选答案作为所述待回答问题的最佳答案。
根据本申请实施例的第二方面,提供了一种多文本分析装置,包括:
输入模块,被配置为将至少两个待分析文本和待回答问题输入预先训练好的文本分析模型中进行处理,生成所述待回答问题的至少两个候选答案和每个候选答案对应的候选答案向量;
提取模块,被配置为提取每个所述候选答案的特征向量;
拼接模块,被配置为根据每个所述候选答案的所述特征向量和所述候选答案向量生成对应的拼接向量;
选取模块,被配置为根据所述拼接向量在所述候选答案中选取所述待回答问题的最佳答案。
可选的,所述提取模块,包括:
提取特征子模块,被配置为提取每个所述候选答案的信息检索特征值和语义特征值;
生成向量子模块,被配置为根据所述信息检索特征值和所述语义特征值生成对应的特征向量。
可选的,所述提取特征子模块,进一步被配置为根据预设的信息检索特征库获取所述候选答案的信息检索特征标签;根据所述待回答问题、所述待分析文本、所述候选答案中的至少一项以及所述信息检索特征标签获取所述候选答案对应的信息检索特征值;根据预设的语义特征库获取所述候选答案的语义特征标签;预先训练好的文本分析模型根据所述语义特征标签对所述待分析文本和所述待回答问题进行处理后获得所述优选答案对应的语义特征值。
可选的,所述生成向量子模块,进一步被配置为根据所述信息检索特征值生成对应的信息检索特征向量;根据所述语义特征值生成对应的语义特征向量;将所述信息检索特征向量和所述语义特征向量进行拼接,获得拼接后的特征向量。
可选的,所述生成向量子模块,进一步被配置为将所述信息检索特征值进行标准化处理,获得标准化信息检索特征值;将所述语义特征值进行标准化处理,获得标准化语义特征值;将所述标准化信息检索特征值和所述标准化语义特征值拼接,获得标准化拼接特征值;根据所述标准化拼接特征值获得对应的特征向量。
可选的,所述生成向量子模块,进一步被配置为将所述信息检索特征值和所述语义特征值输入预先训练好的特征分类器;所述特征分类器响应于所述信息检索特征值和所述语义特征值作为输入而生成对应的特征向量。
可选的,所述拼接模块,进一步被配置为将每个所述候选答案的所述特征向量和所述候选答案向量按维度进行拼接生成对应的拼接向量。
可选的,所述选取模块,进一步被配置为将每个所述候选答案的拼接向量做归一化处理得到对应的候选答案分值;选取候选答案分值最高的候选答案作为所述待回答问题的最佳答案。
根据本申请实施例的第三方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述多文本分析方法的步骤。
根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述多文本分析方法的步骤。
根据本申请实施例的第五方面,提供了一种芯片,其存储有计算机指令,该指令被芯片执行时实现所述多文本分析方法的步骤。
本申请实施例中提供的多文本分析方法,通过文本分析模型对多个待分析文本和待回答问题进行处理后得到多个候选答案,通过提取每个候选答案的特征向量,充分挖掘每个候选答案的多种类型的特征,根据多种类型的特征为候选答案打分提供参考,并与每个候选答案对应的候选答案向量组成拼接向量,再对拼接向量进行处理打分,将得分最高的候选答案作为所述待回答问题的最佳答案。在结合多种类型的特征之后得出的最佳答案,极大的减小了答案误判的可能性,提高了选择答案的准确率,进而提高了工作效率。
其次,在提取每个候选答案的特征向量时,提取了候选答案的信息检索特征和语义特征。其中,充分挖掘信息检索特征,可以尽可能地利用文本的已有信息;充分挖掘语义特征,可以使语义特征和信息检索特征互相结合、互相补充。提取信息检索特征和语义特征极大地丰富了特征池的维度,在多个维度上为选择最佳答案提供了特征参考,减小了答案误判的可能性,能更精确地匹配到正确答案。
附图说明
图1是本申请实施例提供的计算设备的结构框图;
图2是本申请实施例提供的多文本分析方法的流程图;
图3是本申请实施例提供的提取候选答案信息检索特征值和语义特征值方法的流程图;
图4是本申请另一实施例提供的多文本分析方法的流程图;
图5是本申请实施例提供的多文本分析方法的流程示意图;
图6是本申请实施例提供的多文本分析装置的结构示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本发明一个或多个实施例涉及的名词术语进行解释。
文本分析模型:通过机器学习或者深度学习方法来学习文本中所蕴含的语义信息,阅读理解输入的单文本信息或多文本信息,进而回答同时输入的问题的模型。
BERT模型:一种双向注意力神经网络模型。BERT模型可以通过左、右两侧上下文来预测当前词和通过当前句子预测下一个句子。BERT模型的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的文本的语义表示,然后将文本的语义表示在特定NLP任务中作微调,最终应用于该NLP任务。
信息检索特征:在实践的过程中使用到的对模型结果有重要影响的特征。
语义特征:指与文本语义相关的特征。
在本申请中,提供了一种多文本分析方法及装置、计算设备和计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1示出了根据本申请一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接,数据库150用于保存数据。
计算设备100还包括接入设备140,接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本申请的一个实施例中,计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。
其中,处理器120可以执行图2所示多文本分析方法中的步骤。图2示出了根据本申请一实施例的多文本分析方法的流程图,包括步骤202至步骤208。
步骤202:将至少两个待分析文本和待回答问题输入预先训练好的文本分析模型中进行处理,生成所述待回答问题的至少两个候选答案和每个候选答案对应的候选答案向量。
具体地,待分析文本可以是一篇文章,可以是一个网页链接中的文本内容,可以是一段新闻等等;待回答问题为与待分析文本的内容相关的疑问句;预先训练好的文本分析模型可以为BERT模型。
所述预先训练好的文本分析模型对所述待分析文本和所述待回答问题进行处理后,获得所述待回答问题的至少两个候选答案和每个候选答案对应的候选答案向量。
在本申请提供的实施例中,提供一个待回答的问题“某A品牌B型号手机是多少钱?”,待分析文本为经过搜索引擎搜索到的5篇文档,将待回答问题和5篇文档输入到预先训练好的阅读理解模型中进行处理,生成5个候选答案,分别为1、“B型号手机价格为5999元”;2、“某A品牌即将发布新型号手机的价格预测为6999元”;3、“某水果的价格为20元一斤”;4、“某品牌D的E型号手机是3999元”;5、“大米的价格为30元一斤”。每个候选答案对应的候选答案向量为候选答案1、“B型号手机价格为5999元”的候选答案向量为(X11,X12,……X1100),候选答案2、“某A品牌即将发布新型号手机的价格预测为6999元”的候选答案向量为(X21,X22,……X2100),候选答案3、“某水果的价格为20元一斤”的候选答案向量为(X31,X32,……X3100),候选答案4、“某品牌D的E型号手机是3999元”的候选答案向量为(X41,X42,……X4100),候选答案5、“大米的价格为30元一斤”的候选答案向量为(X51,X52,……X5100)。
步骤204:提取每个所述候选答案的特征向量。
可选的,提取每个所述候选答案的特征向量,包括:提取每个所述候选答案的信息检索特征值和语义特征值,根据所述信息检索特征值和所述语义特征值生成对应的特征向量。
信息检索特征值记录了在实践过程中,使用到的对模型结果有重要影响的特征,如:候选答案的长度、问题的长度、原始文本长度等等。
语义特征值是指与文本相关的特征,如:是否含有数字,人名,地点,时间等实体特征、词性标注特征、问题与候选答案之间在向量空间距离中的距离等等。
参见图3,提取每个所述候选答案的信息检索特征值和语义特征值可以通过步骤302至步骤308实现。
步骤302:根据预设的信息检索特征库获取所述候选答案的信息检索特征标签。
预设的信息检索特征库中包括了经过日常实践总结的多个基于信息检索的特征标签,极大限度的利用了文本已有信息,信息检索特征标签包括:候选答案长度、原始文本长度、问题长度、问题类型等。
步骤304:根据所述待回答问题、所述待分析文本、所述候选答案中的至少一项以及所述信息检索特征标签获取所述候选答案对应的信息检索特征值。
根据信息检索特征标签中需要提取的特征,通过所述待回答问题、所述待分析文本、所述候选答案中的至少一项中提取对应的信息检索特征值。
例如,当需要获取候选答案长度特征时,需要通过候选答案获得对应的候选答案长度特征;当需要获取问题和文本之间的杰卡德距离特征时,需要通过待回答问题和待分析文本共同获得对应的杰卡德距离特征。
步骤306:根据预设的语义特征库获取所述候选答案的语义特征标签。
预设的语义特征库中包括了基于语义的文本特征标签,充分考虑了文本蕴含的潜在特征,语义特征标签包括:词性标注特征、问题与候选答案之间在向量空间模型中的距离、候选答案在文本中开始位置概率最大值等。
步骤308:预先训练好的文本分析模型根据所述语义特征标签对所述待分析文本和所述待回答问题进行处理后获得所述优选答案对应的语义特征值。
预先训练好的文本分析模型在对所述待分析文本和所述待回答问题进行处理后,会得到待分析文本中每个字对应的概率值,根据概率值可以确定候选答案在待分析文本中的开始位置和结束位置,根据预设的语义特征库获取对应的语义特征值。
提取每个候选答案的信息检索特征值和语义特征值即考虑了文本固有特征,又考虑的结合文本语义的特征,极大的丰富了特征池的维度,为后续给每个候选答案打分提供了更多的参考,可以辅助打分更加准确。
在实际应用中,根据所述信息检索特征值和所述语义特征值生成对应的特征向量的方法有很多。
在本申请提供的一种具体实施方式中,根据所述信息检索特征值和所述语义特征值生成对应的特征向量包括:根据所述信息检索特征值生成对应的信息检索特征向量,根据所述语义特征值生成对应的语义特征向量,将所述信息检索特征向量和所述语义特征向量进行拼接,获得拼接后的特征向量。
在本申请提供的另一种具体实施方式中,将所述信息检索特征值进行标准化处理,获得标准化信息检索特征值,将所述语义特征值进行标准化处理,获得标准化语义特征值,将所述标准化信息检索特征值和所述标准化语义特征值拼接,获得标准化拼接特征值,根据所述标准化拼接特征值获得对应的特征向量。
在本申请提供的又一种具体实施方式中,将所述信息检索特征值和所述语义特征值输入预先训练好的特征分类器,所述特征分类器响应于所述信息检索特征值和所述语义特征值作为输入而生成对应的特征向量。
以上三种具体实施方式为根据所述信息检索特征值和所述语义特征值生成对应的特征向量的方法,具体生成特征向量的方法以实际应用为准,在本申请中不对根据信息检索特征值和语义特征值如何生成对应的特征向量的方法做具体限定。
在本申请提供的实施例中,沿用上例,提取每个候选答案的14个信息检索特征值和18个语义特征值,将14个信息检索特征值和18个语义特征值进行拼接后获得32个标准化拼接特征值,将32个标准化拼接特征值做嵌入化处理后,获得每个候选答案对应的维度为32的特征向量。即候选答案“B型号手机价格为5999元”的特征向量为(T11,T12,……T132),候选答案“某A品牌即将发布新型号手机的价格预测为6999元”的特征向量为(T21,T22,……T232),候选答案“某水果的价格为20元一斤”的特征向量为(T31,T32,……T332),候选答案“某品牌D的E型号手机是3999元”的特征向量为(T41,T42,……T432),候选答案“大米的价格为30元一斤”的特征向量为(T51,T52,……T532)。
步骤206:根据每个所述候选答案的所述特征向量和所述候选答案向量生成对应的拼接向量。
可选的,将每个所述候选答案的所述特征向量和所述候选答案向量按维度进行拼接生成对应的拼接向量。
在本申请提供的实施例中,在步骤202中生成每个候选答案对应的100维度的候选答案向量,候选答案“B型号手机价格为5999元”的候选答案向量为(X11,X12,……X1100),候选答案“某A品牌即将发布新型号手机的价格预测为6999元”的候选答案向量为(X21,X22,……X2100),候选答案“某水果的价格为20元一斤”的候选答案向量为(X31,X32,……X3100),候选答案“某品牌D的E型号手机是3999元”的候选答案向量为(X41,X42,……X4100),候选答案“大米的价格为30元一斤”的候选答案向量为(X51,X52,……X5100)。将每个候选答案对应的32维的特征向量拼接在100维的候选答案向量后,生成每个候选答案对应的132维的拼接向量,即候选答案“B型号手机价格为5999元”的特征向量为(X11,X12,……X1100,T11,T12,……T132),候选答案“某A品牌即将发布新型号手机的价格预测为6999元”的特征向量为(X21,X22,……X2100,T21,T22,……T232),候选答案“某水果的价格为20元一斤”的特征向量为(X31,X32,……X3100,T31,T32,……T332),候选答案“某品牌D的E型号手机是3999元”的特征向量为(X41,X42,……X4100,T41,T42,……T432),候选答案“大米的价格为30元一斤”的特征向量为(X51,X52,……X5100,T51,T52,……T532)。
步骤208:根据所述拼接向量在所述候选答案中选取所述待回答问题的最佳答案。
可选的,将每个所述候选答案的拼接向量做归一化处理得到对应的候选答案分值,选取候选答案分值最高的候选答案作为所述待回答问题的最佳答案。
在本申请提供的实施例中,沿用上例,将5个候选答案的拼接向量经过归一处理,得到每个候选答案对应的分数为(0.6,0.2,0.05,0.1,0.05)。选取分值最高的候选答案“B型号手机价格为5999元”为待回答问题“某A品牌B型号手机是多少钱?”的最佳答案。
本申请实施例中提供的多文本分析方法,通过阅读理解模型对多个待分析文本和待回答问题进行处理后得到多个候选答案,通过提取每个候选答案的特征向量,即提取候选答案的信息检索特征和语义特征,可以使信息检索特征和语义特征互相结合、互相补充,充分挖掘每个候选答案的多种类型的特征,极大地丰富了特征池的维度,可以通过多种类型的特征在多个维度上为候选答案打分提供参考,并与每个候选答案对应的候选答案向量组成拼接向量,再对拼接向量进行处理打分,将得分最高的候选答案作为所述待回答问题的最佳答案。结合多个维度的特征之后得出的最佳答案,极大的减小了答案误判的可能性,能更精确地匹配到正确答案,提高了选择答案的准确率,进而提高了工作效率。
结合图4与图5对本申请提供的多文本分析方法做进一步解释说明,其中,图4示出了本申请一实施例的多文本分析方法的流程图,该多文本分析方法以对三篇待分析文本和待回答问题为例进行描述,包括步骤402至步骤410,图5示出了本申请实施例提供的多文本分析方法的流程示意图。
步骤402:将三篇待分析文本和待回答问题输入预先训练好的阅读理解模型中进行处理,生成所述待回答问题的三个候选答案和每个候选答案对应的候选答案向量。
在本申请提供的实施例中,待回答问题为“李白留存于世的诗共有多少首?”待分析文本为三篇关于唐诗和唐代诗人的文章。经过预先训练好的阅读理解模型的处理后得到三个候选答案,分别为:1、“《唐诗三百首》中共收录李白的27首诗”;2、“李白共有1010首诗,存于《李白全集》”;3、“《唐诗三百首》中共收录王维的29首诗”。三个候选答案对应的候选答案向量为:候选答案向量1(Y11,Y12,……Y160),候选答案向量2(Y21,Y22,……Y260),候选答案向量3、(Y31,Y32,……Y360)。
步骤404:提取每个所述候选答案的特征向量。
在本申请提供的实施例中,提取每个候选答案的信息检索特征向量分别为:(M11,M12,……M114),(M21,M22,……M214),(M31,M32,……M314)。提取每个候选答案的语义特征向量分别为:(N11,N12,……N118),(N21,N22,……N218),(N31,N32,……N318)。将每个候选答案的信息检索特征向量和语义特征向量进行拼接,获得每个候选答案的特征向量为:(M11,M12,……M114,N11,N12,……N118),(M21,M22,……M214,N21,N22,……N218),(M31,M32,……M314,N31,N32,……N318)。
步骤406:根据每个所述候选答案的所述特征向量和所述候选答案向量生成对应的拼接向量。
在本申请提供的实施例中,将每个答案的候选答案向量和特征向量进行拼接,生成对应的拼接向量分别为:(Y11,Y12,……Y160,M11,M12,……M114,N11,N12,……N118),(Y21,Y22,……Y260,M21,M22,……M214,N21,N22,……N218),(Y31,Y32,……Y360,M31,M32,……M314,N31,N32,……N318)。
步骤408:将每个所述候选答案的拼接向量做归一化处理得到对应的候选答案分值。
在本申请提供的实施例中,将每个候选答案对应的拼接向量做归一化处理,得到第1个候选答案对应的分值为0.3,第2个候选答案对应的分值为0.6,第3个候选答案对应的分值为0.1。
步骤410:选取候选答案分值最高的候选答案作为所述待回答问题的最佳答案。
在本申请提供的实施例中,第2个候选答案的分值最高,因此选取第2个候选答案“李白共有1010首诗,存于《李白全集》”作为待回答问题“李白留存于世的诗共有多少首?”的最佳答案。
本申请实施例中提供的多文本分析方法,通过阅读理解模型对多个待分析文本和待回答问题进行处理后得到多个候选答案,通过提取每个候选答案的信息检索特征和语义特征,进而转换为信息检索特征向量和语义特征向量,再将信息检索特征向量和语义特征向量拼接为所述候选答案的特征向量,可以使信息检索特征和语义特征互相结合、互相补充,充分挖掘每个候选答案的多种类型的特征,极大地丰富了特征池的维度,可以通过多种类型的特征在多个维度上为候选答案打分提供参考,再与每个候选答案对应的候选答案向量拼接进行最终打分,将得分最高的候选答案作为所述待回答问题的最佳答案。结合多个维度的特征之后得出的最佳答案,极大的减小了答案误判的可能性,能更精确地匹配到正确答案,提高了选择答案的准确率,进而提高了工作效率。
与上述方法实施例相对应,本申请还提供了多文本分析装置实施例,图6示出了本申请一个实施例的多文本分析装置的结构示意图。如图6所示,该装置包括:
输入模块602,被配置为将至少两个待分析文本和待回答问题输入预先训练好的文本分析模型中进行处理,生成所述待回答问题的至少两个候选答案和每个候选答案对应的候选答案向量。
提取模块604,被配置为提取每个所述候选答案的特征向量。
拼接模块606,被配置为根据每个所述候选答案的所述特征向量和所述候选答案向量生成对应的拼接向量。
选取模块608,被配置为根据所述拼接向量在所述候选答案中选取所述待回答问题的最佳答案。
可选的,所述提取模块604,包括:
提取特征子模块,被配置为提取每个所述候选答案的信息检索特征值和语义特征值。
生成向量子模块,被配置为根据所述信息检索特征值和所述语义特征值生成对应的特征向量。
可选的,所述提取特征子模块,进一步被配置为根据预设的信息检索特征库获取所述候选答案的信息检索特征标签;根据所述待回答问题、所述待分析文本、所述候选答案中的至少一项以及所述信息检索特征标签获取所述候选答案对应的信息检索特征值;根据预设的语义特征库获取所述候选答案的语义特征标签;预先训练好的文本分析模型根据所述语义特征标签对所述待分析文本和所述待回答问题进行处理后获得所述优选答案对应的语义特征值。
可选的,所述生成向量子模块,进一步被配置为根据所述信息检索特征值生成对应的信息检索特征向量;根据所述语义特征值生成对应的语义特征向量;将所述信息检索特征向量和所述语义特征向量进行拼接,获得拼接后的特征向量。
可选的,所述生成向量子模块,进一步被配置为将所述信息检索特征值进行标准化处理,获得标准化信息检索特征值;将所述语义特征值进行标准化处理,获得标准化语义特征值;将所述标准化信息检索特征值和所述标准化语义特征值拼接,获得标准化拼接特征值;根据所述标准化拼接特征值获得对应的特征向量。
可选的,所述生成向量子模块,进一步被配置为将所述信息检索特征值和所述语义特征值输入预先训练好的特征分类器;所述特征分类器响应于所述信息检索特征值和所述语义特征值作为输入而生成对应的特征向量。
可选的,所述拼接模块606,进一步被配置为将每个所述候选答案的所述特征向量和所述候选答案向量按维度进行拼接生成对应的拼接向量。
可选的,所述选取模块608,进一步被配置为将每个所述候选答案的拼接向量做归一化处理得到对应的候选答案分值;选取候选答案分值最高的候选答案作为所述待回答问题的最佳答案。
本申请实施例中提供的多文本分析装置,通过阅读理解模型对多个待分析文本和待回答问题进行处理后得到多个候选答案,通过提取每个候选答案的信息检索特征和语义特征,进而转换为信息检索特征向量和语义特征向量,再将信息检索特征向量和语义特征向量拼接为所述候选答案的特征向量,可以使信息检索特征和语义特征互相结合、互相补充,充分挖掘每个候选答案的多种类型的特征,极大地丰富了特征池的维度,可以通过多种类型的特征在多个维度上为候选答案打分提供参考,再与每个候选答案对应的候选答案向量拼接进行最终打分,将得分最高的候选答案作为所述待回答问题的最佳答案。结合多个维度的特征之后得出的最佳答案,极大的减小了答案误判的可能性,能更精确地匹配到正确答案,提高了选择答案的准确率,进而提高了工作效率。
本申请一实施例中还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述的多文本分析方法的步骤。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前所述多文本分析方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的多文本分析方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述多文本分析方法的技术方案的描述。
本申请实施例公开了一种芯片,其存储有计算机指令,该指令被处理器执行时实现如前所述多文本分析方法的步骤。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本申请的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims (9)

1.一种多文本分析方法,其特征在于,包括:
将至少两个待分析文本和待回答问题输入预先训练好的文本分析模型中进行处理,生成所述待回答问题的至少两个候选答案和每个候选答案对应的候选答案向量,其中,每个所述候选答案向量为每个所述候选答案对应的向量形式的表示;
提取每个所述候选答案的特征向量,其中,所述提取每个所述候选答案的特征向量,包括提取每个所述候选答案的信息检索特征值和语义特征值,根据所述信息检索特征值和所述语义特征值生成对应的特征向量,所述信息检索特征值包括所述候选答案的长度、所述待回答问题的长度、所述至少两个待分析文本的原始文本长度中的至少一项;
根据每个所述候选答案的所述特征向量和所述候选答案向量生成对应候选答案的拼接向量;
根据所述拼接向量在所述候选答案中选取所述待回答问题的最佳答案,其中,所述根据所述拼接向量在所述候选答案中选取所述待回答问题的最佳答案,包括将每个所述候选答案的拼接向量做归一化处理得到对应的候选答案分值,选取候选答案分值最高的候选答案作为所述待回答问题的最佳答案。
2.如权利要求1所述的多文本分析方法,其特征在于,提取每个所述候选答案的信息检索特征值和语义特征值,包括:
根据预设的信息检索特征库获取所述候选答案的信息检索特征标签;
根据所述待回答问题、所述待分析文本、所述候选答案中的至少一项以及所述信息检索特征标签获取所述候选答案对应的信息检索特征值;
根据预设的语义特征库获取所述候选答案的语义特征标签;
预先训练好的文本分析模型根据所述语义特征标签对所述待分析文本和所述待回答问题进行处理后获得所述候选答案对应的语义特征值。
3.如权利要求1所述的多文本分析方法,其特征在于,根据所述信息检索特征值和所述语义特征值生成对应的特征向量,包括:
根据所述信息检索特征值生成对应的信息检索特征向量;
根据所述语义特征值生成对应的语义特征向量;
将所述信息检索特征向量和所述语义特征向量进行拼接,获得拼接后的特征向量。
4.如权利要求1所述的多文本分析方法,其特征在于,根据所述信息检索特征值和所述语义特征值生成对应的特征向量,包括:
将所述信息检索特征值进行标准化处理,获得标准化信息检索特征值;
将所述语义特征值进行标准化处理,获得标准化语义特征值;
将所述标准化信息检索特征值和所述标准化语义特征值拼接,获得标准化拼接特征值;
根据所述标准化拼接特征值获得对应的特征向量。
5.如权利要求1所述的多文本分析方法,其特征在于,根据所述信息检索特征值和所述语义特征值生成对应的特征向量,包括:
将所述信息检索特征值和所述语义特征值输入预先训练好的特征分类器;
所述特征分类器响应于所述信息检索特征值和所述语义特征值作为输入而生成对应的特征向量。
6.如权利要求1所述的多文本分析方法,其特征在于,根据每个所述候选答案的所述特征向量和所述候选答案向量生成对应的拼接向量,包括:
将每个所述候选答案的所述特征向量和所述候选答案向量按维度进行拼接生成对应的拼接向量。
7.一种多文本分析装置,其特征在于,包括:
输入模块,被配置为将至少两个待分析文本和待回答问题输入预先训练好的文本分析模型中进行处理,生成所述待回答问题的至少两个候选答案和每个候选答案对应的候选答案向量,其中,每个所述候选答案向量为每个所述候选答案对应的向量形式的表示;
提取模块,被配置为提取每个所述候选答案的特征向量,其中,所述提取每个所述候选答案的特征向量,包括提取每个所述候选答案的信息检索特征值和语义特征值,根据所述信息检索特征值和所述语义特征值生成对应的特征向量,所述信息检索特征值包括所述候选答案的长度、所述待回答问题的长度、所述至少两个待分析文本的原始文本长度中的至少一项;
拼接模块,被配置为根据每个所述候选答案的所述特征向量和所述候选答案向量生成对应候选答案的拼接向量;
选取模块,被配置为根据所述拼接向量在所述候选答案中选取所述待回答问题的最佳答案,其中,所述根据所述拼接向量在所述候选答案中选取所述待回答问题的最佳答案,包括将每个所述候选答案的拼接向量做归一化处理得到对应的候选答案分值,选取候选答案分值最高的候选答案作为所述待回答问题的最佳答案。
8.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述指令时实现权利要求1-6任意一项所述方法的步骤。
9.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-6任意一项所述方法的步骤。
CN201911257226.9A 2019-12-06 2019-12-06 一种多文本分析方法及装置 Active CN110929015B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911257226.9A CN110929015B (zh) 2019-12-06 2019-12-06 一种多文本分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911257226.9A CN110929015B (zh) 2019-12-06 2019-12-06 一种多文本分析方法及装置

Publications (2)

Publication Number Publication Date
CN110929015A CN110929015A (zh) 2020-03-27
CN110929015B true CN110929015B (zh) 2024-04-02

Family

ID=69859379

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911257226.9A Active CN110929015B (zh) 2019-12-06 2019-12-06 一种多文本分析方法及装置

Country Status (1)

Country Link
CN (1) CN110929015B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114461764A (zh) * 2020-11-06 2022-05-10 哈尔滨工业大学 一种基于文本蕴含的多源答案校验方法
CN112863627B (zh) * 2021-03-12 2023-11-03 云知声智能科技股份有限公司 医疗质控信息检测方法、系统以及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160358094A1 (en) * 2015-06-02 2016-12-08 International Business Machines Corporation Utilizing Word Embeddings for Term Matching in Question Answering Systems
CN109766423A (zh) * 2018-12-29 2019-05-17 上海智臻智能网络科技股份有限公司 基于神经网络的问答方法及装置、存储介质、终端
CN109918560A (zh) * 2019-01-09 2019-06-21 平安科技(深圳)有限公司 一种基于搜索引擎的问答方法和装置
CN110188362A (zh) * 2019-06-10 2019-08-30 北京百度网讯科技有限公司 文本处理方法及装置
CN110309283A (zh) * 2019-06-28 2019-10-08 阿里巴巴集团控股有限公司 一种智能问答的答案确定方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160358094A1 (en) * 2015-06-02 2016-12-08 International Business Machines Corporation Utilizing Word Embeddings for Term Matching in Question Answering Systems
CN109766423A (zh) * 2018-12-29 2019-05-17 上海智臻智能网络科技股份有限公司 基于神经网络的问答方法及装置、存储介质、终端
CN109918560A (zh) * 2019-01-09 2019-06-21 平安科技(深圳)有限公司 一种基于搜索引擎的问答方法和装置
CN110188362A (zh) * 2019-06-10 2019-08-30 北京百度网讯科技有限公司 文本处理方法及装置
CN110309283A (zh) * 2019-06-28 2019-10-08 阿里巴巴集团控股有限公司 一种智能问答的答案确定方法及装置

Also Published As

Publication number Publication date
CN110929015A (zh) 2020-03-27

Similar Documents

Publication Publication Date Title
CN111027327A (zh) 机器阅读理解方法、设备、存储介质及装置
CN109960728B (zh) 一种开放域会议信息命名实体识别方法及系统
EP3926531A1 (en) Method and system for visio-linguistic understanding using contextual language model reasoners
CN114357973A (zh) 意图识别方法、装置、电子设备及存储介质
CN114580424B (zh) 一种用于法律文书的命名实体识别的标注方法和装置
CN113536801A (zh) 阅读理解模型的训练方法及装置、阅读理解方法及装置
CN110929015B (zh) 一种多文本分析方法及装置
CN112699686A (zh) 基于任务型对话系统的语义理解方法、装置、设备及介质
CN114298035A (zh) 一种文本识别脱敏方法及其系统
CN110609886A (zh) 一种文本分析方法及装置
CN111311364B (zh) 基于多模态商品评论分析的商品推荐方法及系统
CN112463942A (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN116070632A (zh) 一种非正式文本实体标签识别方法和装置
CN116320607A (zh) 智能视频生成方法、装置、设备及介质
CN117131155A (zh) 多类目识别方法、装置、电子设备及储存介质
CN116029303A (zh) 语言表达方式识别方法、装置、电子设备和存储介质
CN113792120B (zh) 图网络的构建方法及装置、阅读理解方法及装置
CN114818718A (zh) 合同文本识别方法及装置
CN116150308A (zh) 识别模型的训练方法、识别方法和装置
CN114637831A (zh) 基于语义分析的数据查询方法及其相关设备
CN112784573A (zh) 文本情感内容分析方法、装置、设备及存储介质
CN114328902A (zh) 文本标注模型构建方法和装置
CN112364131A (zh) 一种语料处理方法及其相关装置
CN111783471B (zh) 自然语言的语义识别方法、装置、设备及存储介质
CN113537263A (zh) 二分类模型的训练方法及装置、实体链接方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant