CN114661863A - 一种从文章中抽取答案的方法及装置 - Google Patents
一种从文章中抽取答案的方法及装置 Download PDFInfo
- Publication number
- CN114661863A CN114661863A CN202210238298.4A CN202210238298A CN114661863A CN 114661863 A CN114661863 A CN 114661863A CN 202210238298 A CN202210238298 A CN 202210238298A CN 114661863 A CN114661863 A CN 114661863A
- Authority
- CN
- China
- Prior art keywords
- feature
- feature set
- features
- full
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种从文章中抽取答案的方法,从待回答问题中获取第一特征集合和第二特征集合以及从文章片段中获取第三特征集合和第四特征集合。基于第一特征集合和第二特征集合获得第一全特征集合,该第一全特征集合中包括多个第一全特征,第一全特征为字维度上的特征。基于第三特征集合和第四特征集合获得第二全特征集合,该第二全特征集合包括多个第二全特征,第二全特征为字维度上的特征。基于第一全特征和第二全特征确定文章片段中每个字作为答案起始位置的第一概率和作为答案终止位置的第二概率,基于第一概率和第二概率确定答案。即,本申请通过提取多种特征来模拟人的阅读习惯,进而利用多种特征从文章片段中抽取答案,提高抽取的准确性。
Description
技术领域
本申请涉及数据处理技术领域,具体涉及一种从文章中抽取答案的方法及装置。
背景技术
机器阅读理解(Machine Reading Comprehension,MRC)作为智能问答技术中的全新方法,主要涉及到深度学习(Deep Learning)、迁移学习(Transfer Learning)和自然语言处理(Natural Language Processing,NLP)等相关技术。让机器阅读用户输入的问题,理解用户的意图,通过阅读理解模型从文章中快速、准确地检索并查找到细粒度的答案片段。机器阅读理解技术无需建立大规模的问答知识库,从而大大降低了对于知识库的构建、维护和运营成本。
随着迁移学习成为NLP领域的热点,基于迁移学习的MRC模型研究越来越多。目前基于迁移学习的MRC模型通过在大规模的语料集中进行训练,能够很好地完整阅读理解任务。
然而,目前MRC模型在执行阅读理解任务时,从文章中抽取答案时所依据的特征较为单一,影响输出结果的准确性。
发明内容
有鉴于此,本申请实施例提供一种从文章中抽取答案的方法和装置,以通过提取多组特征识别来自不同文章片段的答案,提高答案抽取的准确性。
为解决上述问题,本申请实施例提供的技术方案如下:
在本申请第一方面,获取待回答问题和文章;
从所述待回答问题中获取第一特征集合和第二特征集合,所述第一特征集合包括所述待回答问题对应的字向量特征、句向量特征以及位置向量特征,所述第二特征集合包括第一先验特征和第一交互特征,所述第一先验特征是根据与所述待回答问题相关的先验知识提取的,所述第一交互特征为所述待回答问题与所述文章相互作用的特征;
针对所述文章中的任一文章片段,从所述文章片段中获取第三特征集合和第四特征集合,所述第三特征集合包括所述文章片段对应的字向量特征、句向量特征以及位置向量特征,所述第四特征集合包括第二先验特征和第二交互特征,所述第二先验特征是根据与所述文章片段相关的先验知识提取的,所述第二交互特征为所述文章片段与所述待回答问题相互作用的特征;
根据所述第一特征集合和所述第二特征集合获得第一全特征集合,所述第一全特征集合包括多个第一全特征,所述第一全特征为字维度上的特征;
根据所述第三特征集合和所述第四特征集合获得第二全特征集合,所述第二全特征集合包括多个第二全特征,所述第二全特征为字维度上的特征;
根据所述第一全特征和所述第二全特征,确定所述文章片段中每个字作为答案起始位置的第一概率和答案终止位置的第二概率;
基于每个字所对应的所述第一概率和所述第二概率确定所述待回答问题对应的答案。
在本申请第二方面,提供了一种从文章中抽取答案的装置,所述装置包括:
第一获取单元,用于获取待回答问题和文章;
第二获取单元,用于从所述待回答问题中获取第一特征集合和第二特征集合,所述第一特征集合包括所述待回答问题对应的字向量特征、句向量特征以及位置向量特征,所述第二特征集合包括第一先验特征和第一交互特征,所述第一先验特征是根据与所述待回答问题相关的先验知识提取的,所述第一交互特征为所述待回答问题与所述文章相互作用的特征;
所述第二获取单元,还用于针对所述文章中的任一文章片段,从所述文章片段中获取第三特征集合和第四特征集合,所述第三特征集合包括所述文章片段对应的字向量特征、句向量特征以及位置向量特征,所述第四特征集合包括第二先验特征和第二交互特征,所述第二先验特征是根据与所述文章片段相关的先验知识提取的,所述第二交互特征为所述文章片段与所述待回答问题相互作用的特征;
第三获取单元,用于根据所述第一特征集合和所述第二特征集合获得第一全特征集合,所述第一全特征集合包括多个第一全特征,所述第一全特征为字维度上的特征;
所述第三获取单元,还用于根据所述第三特征集合和所述第四特征集合获得第二全特征集合,所述第二全特征集合包括多个第二全特征,所述第二全特征为字维度上的特征;
第一确定单元,用于根据所述第一全特征和所述第二全特征,确定所述文章片段中每个字作为答案起始位置的第一概率和答案终止位置的第二概率;
第二确定单元,用于基于每个字所对应的所述第一概率和所述第二概率确定所述待回答问题对应的答案。
在本申请第三方面,提供了一种设备,包括:处理器,存储器;
所述存储器,用于存储计算机可读指令或者计算机程序;
所述处理器,用于读取所述计算机可读指令或所述计算机程序,以使得所述设备实现如第一方面所述的从文章中抽取答案的方法。
在本申请第四方面,提供了一种计算机可读存储介质,包括指令或计算机程序,当其在计算机上运行时,使得计算机执行第一方面所述的从文章中抽取答案的方法。
在本申请第五方面,提供了一种计算机程序产品,所述计算机程序产品包含程序,当所述程序在处理器上运行时,使得计算机或网络设备执行第一方面所述的方法。
由此可见,本申请实施例具有如下有益效果:
本申请针对待回答问题和文章,从待回答问题中获取第一特征集合和第二特征集合以及从文章所包括的文章片段中获取第三特征集合和第四特征集合。其中,第一特征集合包括待回答问题对应的字向量特征、句向量特征以及位置向量特征,第二特征集合包括第一先验特征和第一交互特征,第一先验特征是根据与待回答问题相关的先验知识提取的,第一交互特征为待回答问题与文章相互作用的特征。第三特征集合包括文章片段对应的字向量特征、句向量特征以及位置向量特征,第四特征集合包括第二先验特征和第二交互特征,第二先验特征是根据与文章片段相关的先验知识提取的,第二交互特征为文章片段与待回答问题相互作用的特征。基于第一特征集合和第二特征集合获得第一全特征集合,该第一全特征集合中包括多个第一全特征,该第一全特征为字维度上的特征。基于第三特征集合和第四特征集合获得第二全特征集合,该第二全特征集合包括多个第二全特征,该第二全特征为字维度上的特征。基于第一全特征和第二全特征确定文章片段中每个字作为答案起始位置的第一概率和作为答案终止位置的第二概率,并基于第一概率和第二概率确定答案。即,本申请通过提取多种特征来模拟人们平时的阅读习惯,进而利用多种特征从文章片段中抽取答案,提高抽取的准确性。
附图说明
图1为本申请实施例提供的一种从文章中抽取答案的方法流程图;
图2为本申请实施例提供的一种特征拼接示意图;
图3为本申请实施例提供的一种起始标签矩阵/终止标签矩阵示意图;
图4为本申请实施例提供的一种答案抽取模型结构示意图;
图5为本申请实施例提供的一种全注意力交互示意图;
图6为本申请实施例提供的一种从文章中抽取答案的装置结构图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。
为便于理解本申请实施例的技术方案,下面将先对本申请实施例涉及的技术名词进行说明。
机器阅读理解:给定机器若干篇文章(Context),然后对机器提出一些相关问题(Question),使得机器能够自动理解或者推理问题,并根据给定文章进行作答(Answer)。
词性标注:判断给定句子中每个词的语法信息,并将其对应的词性进行标注的过程。
命名体识别(Name Entity Recognition,NER):指从句子中识别出具有特定实际意义的实体信息,比如地名、机构名、人名、时间和货币等相关专有名词。
文本相似度计算:通过某种计算方式对高维语义空间的两个文本进行抽象分解,从而在数学角度计算两者之间的相似性。
迁移学习:与之前的深度学习不同,迁移学习会预先在大规模语料训练,采取独特的预训练策略,结合上下文来预训练出文本的深度编码语言模型,最后将预训练的模型迁移到自己的任务中,适用于广泛NLP任务的模型构建,包括文本分类、问答任务、命名实体识别和语言推理等。
目前的迁移学习模型通过在大规模的语料集进行训练,可以很好地将模型迁移到其他的各个任务领域,但是这些模型的输入多为字或词的单一特征表征,缺乏任务领域的专有特征表征,比如在机器阅读理解任务中不能良好地模拟人类的阅读习惯。
基于此,本申请实施例提供了一种从文章中抽取答案的方法,在获取到待回答问题和文章时,从待回答问题中获取第一特征集合和第二特征集合,其中,第二特征集合包括第一先验特征和第一交互特征。以及针对文章中的任一文章片段,从该文章片段中获取第三特征集合和第四特征集合,其中,第四特征集合包括第二先验特征和第二交互特征。即,在进行特征提取时,不仅提取待回答问题的第一特征集合,还提取第二特征集合,进而基于第一特征集合和第二特征集合获得待回答问题对应的第一全特征集合。同时不仅提取文字片段的第三特征集合,还提取第四特征集合,进而基于第三特征集合和第四特征集合获得文章片段对应的第二全特征集合。针对文章片段中的每个字,基于该字对应的第一全特征和第二全特征,确定该字作为答案起始位置的第一概率和作为答案终止位置的第二概率。最后,基于每个字对应的第一概率和第二概率确定待回答问题对应的答案。即,在进行阅读理解时,提取问题和文章的多个特征,以根据多个特征从文章中抽取答案。
为便于理解,下面将结合附图对本申请所提供的一种从文章中抽取答案的方法进行说明。
参见图1,该图为本申请实施例提供的一种从文章中抽取答案的方法流程图,如图1所示,该方法包括:
S101:获取待回答问题和文章。
本实施例中,首先获取待回答问题,以及包括与该待回答问题对应答案的文章。其中,所获取的文章可以为一篇文章,也可以为多篇文章。每篇文章可以包括一个或多个文章片段。同时一篇文章中可以包括与该待回答问题对应的一个或多个答案,该多个答案可以位于该文章中的不同片段。
S102:从待回答问题中获取第一特征集合和第二特征集合。
对于待回答问题,对该待回答问题进行特征提取,以获取第一特征集合和第二特征集合。其中,第一特征集合包括待回答问题中每个字对应的字向量特征、句向量特征以及位置向量特征。其中,句向量特征表示该字属于某个句子的特征,位置向量特征表示该字出现的位置特征。第二特征集合包括第一先验特征和第一交互特征。
第一先验特征是根据与待回答问题相关的先验知识获取的特征,可以包括词性特征、命名实体特征和问题类别特征。通过提取待回答问题的词性特征能够使得模型获取语法信息,进而使得模型能够更好地理解语义,消除歧义。通过提取命名实体特征能够利用每个词的实体信息,使得模型能够更加关注具有实体意义的词语。其中,问题类别特征是指待回答问题的类别,包括:Who,Where,What,Why,When,How,How Much,Yes/No的“5W2H1Y”类型。正如现实阅读中,人们在了解问题的类型后,会将注意力放到文章中更相关的部分,比如如果是Who类型的问题,人们会更关注人名或者人称代词;如果是Where类型的问题,人们会更关注地点;如果是What相关的问题,人们会更关注物体名词;如果是When相关的问题,人们会关注时间有关的信息;如果是Why相关的问题,人们更关心结果产生的原因;如果是How相关的问题,人们更关心采取何种方式,如果是How Much相关的问题,人们更关心数量相关部分;如果是Yes/No相关问题,人们更关心肯定或否定的陈述性语句。
第一交互特征表示待回答问题与文章片段之间相互影响的特征,包括第一共现特征和距离特征。其中,第一共现特征指示待回答问题中出现的分词,距离特征指示待回答问题与文章片段之间的相似度。例如表1所示,待回答问题是“智齿一定要拔掉吗?”,则该待回答问题对应的第一共现特征全部标记为1。
表1待回答问题的共现特征
距离特征是指文章和问题的相似度度量。在现实阅读过程中,人们往往会更关注文章中和问题相关程度较高的片段。通常情况下,待回答问题和文章片段重复的词越多表示二者的相似度越高。具体地,可以通过以下方式确定待回答问题与文章片段的距离特征:
1)按照预设分词粒度对文章片段进行分词,获得第一词典,该第一词典中包括文章片段中的所有分词。
2)按照预设分词粒度对待回答问题进行分词,获得第二词典,该第二词典中包括待回答问题中的所有分词。
本实施例中,可以预先确定分词粒度,进而根据分词粒度分布对文章片段、待回答问题进行分词处理。其中,分词粒度可以根据实际应用情况进行设定,例如按照2-gram或3-gram对文章片段或待回答问题进行分词处理,获得各自对应的词典。
3)将第一词典和第二词典进行合并,获得目标词典。
其中,目标词典中的分词经过去重处理。
4)根据文章片段中各分词在目标词典中的位置获得第一位置矩阵,以及根据待回答问题在目标词典中的位置获得第二位置矩阵。
例如,第一位置矩阵为[0 1 1 0 0 1],其中1表示目标词典中该位置的分词出现在文章片段中、0表示目标词典中该位置的分词未出现在文章片段中;第二位置矩阵为[1 10 11 0],其中,1表示目标词典中该位置的分词出现在待回答问题中、0表示目标词典中该位置的分词未出现在待回答问题中。
5)根据第一位置矩阵和第二位置矩阵确定相似度。
具体地,可以采用余弦相似度计算方式来确定第一位置矩阵和第二位置矩阵之间的相似度。
S103:针对文章中的任一文章片段,从该文章片段中获取第三特征集合和第四特征集合。
针对文章中的任一文章片段,对该文章片段进行特征提取,以获得第三特征集合和第四特征集合。其中,第三特征集合包括文章片段对应的字向量特征、句向量特征以及位置向量特征;第四特征集合包括第二先验特征和第二交互特征。其中,第二先验特征是根据与文章片段相关的先验知识提取的,包括文章片段的词性特征、命名实体特征以及文章类别特征。其中,文章类别特征可以统一定义为内容(content)。第二交互特征包括第二共现特征和距离特征,第二共现特征指示文章片段中的分词出现在待回答问题中,如表2所示,如果文章片段中存在“智齿长出来后有蛀牙的表现,最好及时拔掉。”的分词出现在待回答问题中,则该词共现特征标记为1,否则标记为0。
表2文章片段的共现特征
S104:根据第一特征集合和第二特征集合获取第一全特征集合。
在获得待回答问题对应的第一特征集合和第二特征集合后,将第一特征集合和第二特征集合进行拼接获得第一全特征集合。该第一全特征集合包括多个第一全特征,第一全特征为字维度上的特征。即,第一特征集合中所包括的多个第一全特征为待回答问题所包括的每个字分别对应的第一全特征。例如,待回答问题包括8个字,则第一全特征集合中包括8个第一全特征。
可选地,考虑到第二特征集合中的特征是在词语的层面提取的,而第一特征集合是在字层面提取的,由于本实施例所需的特征需要按字提取,则在第一特征集合和第二特征集合拼接之前,将第二特征集合在字维度上进行处理,经过处理后获得每个字的特征,从而获得处理后的第二特征集合,进而将第一特征集合与处理后的第二特征集合进行拼接,获得第一全特征集合。例如图2所示,将第二特征集合中的离散特征(词性特征、命名实体特征、共现特征和问题类别特征)进行特征编码获得每个分词的one-hot向量,并经过延展处理后获得每个字的one-hot向量;将第二特征集合中的连续特征(距离特征)经过延展处理后获得每个字的距离值。经过处理后的离散特征和经过处理后的连续特征在字维度上拼接获得每个字对应的第一全特征。
S105:根据第三特征集合和第四特征集合获取第二全特征集合。
在获得文章片段对应的第三特征集合和第四特征集合后,将第三特征集合和第四特征集合进行拼接获得第二全特征集合。该第二全特征集合包括多个第二全特征,第二全特征为字维度上的特征。即,第二特征集合中所包括的多个第二全特征为文章片段所包括的每个字分别对应的第二全特征。例如,文字片段包括10个字,则第二全特征集合中包括10个第二全特征。
可选地,考虑到第四特征集合中的特征是在词语的层面提取的,而第三特征集合是在字层面提取的,由于本实施例所需的特征需要按字提取,则在第三特征集合和第四特征集合拼接之前,将第四特征集合在字维度上进行处理,经过处理后获得每个字的特征,从而获得处理后的第四特征集合,进而将第三特征集合与处理后的第四特征集合进行拼接,获得第二全特征集合。其中,关于将第四特征集合在字维度上进行处理的具体实现可以参见图2。
S106:根据第一全特征和第二全特征,确定文章片段中每个字作为答案起始位置的第一概率和答案终止位置的第二概率。
在获得待回答问题中每个字对应的第一全特征以及文章片段中每个字对应的第二全特征后,根据第一全特征集合中的所有第一全特征以及第二全特征集合中的所有第二全特征确定文章片段中每个字作为答案起始位置的第一概率以及作为答案终止位置的第二概率。
其中,在利用模型提取特征时,将提取多层的特征,为增加特征的多样性,以提高后续抽取的准确性,本实施例将利用模型输出的最后三层的特征来预测文章片段中每个字的第一概率和第二概率。具体地,针对最后三层中的任一层,将该层中的第一全特征和第二全特征经过全注意力机制处理,获得该层对应的第三全特征。然后,将倒数第三层对应的第三全特征与倒数第二层对应的第三全特征进行拼接,获得第一目标特征;将倒数第二层对应的第三全特征与倒数第一层对应的第三全特征进行拼接,得到第二目标特征。利用第一目标特征确定该字作为答案起始位置的第一概率以及利用第二目标特征确定该字作为答案终止位置的第二概率。例如,倒数第三层对应的第三全特征为E-3、倒数第二层对应的第三全特征为E-2、倒数第一层对应的第三全特征为E-1,则第一目标特征E1为E-3和E-2经过拼接获得的;则第一目标特征E2为E-2和E-1经过拼接获得的。
可选地,可以利用sigmoid函数确定第一概率或第二概率。例如,第一概率=sigmoid(E1)、第二概率=sigmoid(E2)。
对于文章片段中的每个字均可以通过上述方式确定该字对应的第一概率和第二概率,从而获得起始概率矩阵和终止概率矩阵。其中,起始概率矩阵包括每个字对应的第一概率,终止概率矩阵包括每个字对应的第二概率。
S107:基于每个字对应的第一概率和第二概率确定待回答问题对应的答案。
在确定文章片段中每个字对应的第一概率和第二概率后,基于第一概率和第二概率确定待回答问题对应的答案。具体地,预先设置第一概率阈值和第二概率阈值,将大于第一概率阈值的第一概率对应的字确定为起始字;将大于第二概率阈值的第二概率对应的字确定为终止字;针对任一起始字和终止字,将紧邻的起始字和终止字对应的片段确定为待回答问题对应的答案。例如,文章片段包括8个字,其对应的起始概率矩阵为[0.8 0.20.10.1 0.5 0.3 0.2 0.1]、对应的终止概率矩阵为[0.2 0.1 0.3 0.5 0.7 0.1 0.20.5],第一概率阈值和第二概率阈值0.65,则起始字为第一字,终止字为第五个字,则第一个字和第五字之间的片段为答案。即,确定出答案的起始位置索引和终止位置索引。
可见,即,本申请通过提取多种特征来模拟人们平时的阅读习惯,进而利用多种特征从文章片段中抽取答案,提高抽取的准确性。
可选地,本申请实施例提供的技术方案可以应用答案抽取模型,该答案抽取模型为机器学习模型。答案抽取模型是利用训练样本训练生成的,该训练样本包括问题、文章。另外,在训练时将利用文章中每个字作为答案边界的标签以及抽取结果对模型进行多次迭代训练。其中,每个字作为答案边界的标签可以分别为起始标签矩阵和终止标签矩阵,例如图3所示,该两个标签矩阵中1表示该字作为答案边界,0表示该字不能作为答案边界。其中,答案抽取模型包括特征编码模块、文本阅读模块、多层全注意力模块和答案抽取模块,例如图4所示的答案抽取模型结构示意图。
在进行训练时,向模型中输入多条训练样本,每条训练样本输入时,特征编码模块将针对训练样本中的问题和文章分别提取各自对应的基础特征(字向量特征、句向量特征和位置向量特征)以及先验特征(词性特征、命名实体特征、类别特征、共现特征和距离特征)。文本阅读模块在获取到问题对应的基础特征和先验特征后进行拼接,获得在字维度上的全特征,以及在获取到文章对应的基础特征和先验特征后进行拼接,获得字维度上的全特征。在多层全注意力模块利用多个高层网络不同捕获的高级语义信息特征的能力来对文本的全特征和问题的全特征进行多层全注意力(Full Attention,FA)交互,获得交互结果。将交互结果输入到答案抽取模块,将相邻层的交互结果进行拼接,获得拼接结果,进而基于拼接结果确定该拼接结果对应的字为起始字或终止字。具体的拼接算法可以为将倒数第三层的交互结果与倒数第二层的交互结果进行拼接,将拼接结果输入BiLSTM1中,将倒数第二层的交互结果与倒数第一层的交互结果进行拼接,将拼接结果输入BiLSTM2中。
例如图5所示,将倒数第三层的问题全特征和倒数第三层的文章全特征输入全注意力交互模块3中,获得矩阵E-3、将倒数第二层的问题全特征和倒数第二层的文章全特征输入全注意力交互模块2中,获得矩阵E-2、将倒数第一层的问题全特征和倒数第一层的文章全特征输入全注意力交互模块1中,获得矩阵E-1。将矩阵E-3和矩阵E-2进行拼接,获得矩阵E1;将矩阵E-2和矩阵E-1进行拼接,获得矩阵E2。在答案抽取模块包括双向长短记忆网络BiLSTM1和BiLSTM2,BiLSTM1用于确定矩阵E1对应的字作为起始字的概率,BiLSTM2用于确定矩阵E2对应的字作为结束字的概率,进而根据起始字和终止字预测答案。
在获得预测结果后,根据标签矩阵确定损失函数,进而根据损失函数对答案抽取模型的参数进行更新,再次进行训练,直至满足条件。
可选地,可以使用Binary_CrossEntropyLoss计算损失函数,即计算每个文章片段的模型输出值和对应答案边界矩阵的二分类交叉熵,通过该方式,可以一次性地计算每个输入文章片段中所有答案预测起始和终止位置的损失,不用再多次循环同一个文章片段,损失公式如下所示:
LCO=losss+losse
对于一个问题对应多个文章片段的情况,本实施例提供了一种多答案解码方法:
输入:模型对每个文章片段起始和终止预测的概率S_A,E_A,输入样本序列长度seqLength,输入样本文章部分占的起始索引contextStartIndex和终止索引contextEndIndex,置信度阈值thresh,超参n_best,topk;
输出:每个问题对应的预测答案集ansList;
基于上述方法实施例,本申请实施例还提供了一种从文章中抽取答案的装置,下面将结合附图进行说明。
参见图6,该图为本申请实施例提供的一种一种从文章中抽取答案的装置,所述装置600包括:第一获取单元601、第二获取单元602、第三获取单元603、第一确定单元604和第二确定单元605。
第一获取单元601,用于获取待回答问题和文章;
第二获取单元602,用于从所述待回答问题中获取第一特征集合和第二特征集合,所述第一特征集合包括所述待回答问题对应的字向量特征、句向量特征以及位置向量特征,所述第二特征集合包括第一先验特征和第一交互特征,所述第一先验特征是根据与所述待回答问题相关的先验知识提取的,所述第一交互特征为所述待回答问题与所述文章相互作用的特征;
所述第二获取单元602,还用于针对所述文章中的任一文章片段,从所述文章片段中获取第三特征集合和第四特征集合,所述第三特征集合包括所述文章片段对应的字向量特征、句向量特征以及位置向量特征,所述第四特征集合包括第二先验特征和第二交互特征,所述第二先验特征是根据与所述文章片段相关的先验知识提取的,所述第二交互特征为所述文章片段与所述待回答问题相互作用的特征;
第三获取单元603,用于根据所述第一特征集合和所述第二特征集合获得第一全特征集合,所述第一全特征集合包括多个第一全特征,所述第一全特征为字维度上的特征;
所述第三获取单元603,还用于根据所述第三特征集合和所述第四特征集合获得第二全特征集合,所述第二全特征集合包括多个第二全特征,所述第二全特征为字维度上的特征;
第一确定单元604,用于根据所述第一全特征和所述第二全特征,确定所述文章片段中每个字作为答案起始位置的第一概率和答案终止位置的第二概率;
第二确定单元605,用于基于每个字所对应的所述第一概率和所述第二概率确定所述待回答问题对应的答案。
在一种可能的实现方式中,所述第一先验特征包括所述待回答问题的词性特征、命名实体特征和问题类别特征,所述第一交互特征包括第一共现特征和距离特征,所述第一共现特征指示所述待回答问题中出现的分词,所述距离特征指示所述待回答问题与所述文章片段之间的相似度;
所述第二先验特征包括所述文章片段的词性特征、命名实体特征以及文章类别特征,所述第二交互特征包括第二共现特征和所述距离特征,所述第二共现特征指示所述文章片段中的分词出现在所述待回答问题中。
在一种可能的实现方式中,所述第三获取单元603,具体用于将所述第二特征集合在字维度上进行处理,获得处理后的第二特征集合;将所述第一特征集合和所述处理后的第二特征集合进行拼接,获得第一全特征集合;或者,将所述第四特征集合在字维度上进行处理,获得处理后的第四特征集合;所述将所述第三特征集合和所述处理后的第四特征集合进行拼接,获得第二全特征集合。
在一种可能的实现方式中,所述第一确定单元604,具体用于针对特征提取模块输出的最后三层中的任一层对应的第一全特征和第二特征,将所述层对应的所述第一全特征和所述第二全特征经过全注意力机制处理后,获得所述层对应的第三全特征;将倒数第三层对应的第三全特征与所述倒数第二层对应的第三全特征进行拼接,得到第一目标特征;将倒数第二层对应的第三全特征与所述倒数第一层对应的第三全特征进行拼接,得到第二目标特征;基于所述第一目标特征确定所述字作为答案起始位置的第一概率;基于所述第二目标特征确定所述字作为答案终止位置的第二概率。
在一种可能的实现方式中,所述第二确定单元605,具体用于将大于第一概率阈值的第一概率对应的字确定为起始字;将大于第二概率阈值的第二概率对应的字确定为终止字;针对任一起始字和终止字,将紧邻的一对所述起始字和所述终止字对应的片段确定为所述待回答问题对应的答案。
在一种具体的实现方式中,所述方法应用于答案抽取模型,所述答案抽取模型为机器学习模型,所述答案抽取模型是利用训练样本训练生成的,所述训练样本包括问题、文章和所述文章中每个字作为答案边界的标签。
在一种具体的实现方式中,在训练时,所述答案抽取模型是基于Sigmod函数和二分类交叉熵损失函数训练生成的。
需要说明的是,本实施例中各个单元的实现可以参见上述方法实施例中的相关描述,本实施例在此不再赘述。
另外,本申请实施例提供了一种设备,包括:处理器,存储器;
所述存储器,用于存储计算机可读指令或者计算机程序;
所述处理器,用于读取所述计算机可读指令或所述计算机程序,以使得所述设备实现所述的从文章中抽取答案的方法。
本申请实施例提供了一种计算机可读存储介质,包括指令或计算机程序,当其在计算机上运行时,使得计算机执行以上所述的从文章中抽取答案的方法。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种从文章中抽取答案的方法,其特征在于,所述方法包括:
获取待回答问题和文章;
从所述待回答问题中获取第一特征集合和第二特征集合,所述第一特征集合包括所述待回答问题对应的字向量特征、句向量特征以及位置向量特征,所述第二特征集合包括第一先验特征和第一交互特征,所述第一先验特征是根据与所述待回答问题相关的先验知识提取的,所述第一交互特征为所述待回答问题与所述文章相互作用的特征;
针对所述文章中的任一文章片段,从所述文章片段中获取第三特征集合和第四特征集合,所述第三特征集合包括所述文章片段对应的字向量特征、句向量特征以及位置向量特征,所述第四特征集合包括第二先验特征和第二交互特征,所述第二先验特征是根据与所述文章片段相关的先验知识提取的,所述第二交互特征为所述文章片段与所述待回答问题相互作用的特征;
根据所述第一特征集合和所述第二特征集合获得第一全特征集合,所述第一全特征集合包括多个第一全特征,所述第一全特征为字维度上的特征;
根据所述第三特征集合和所述第四特征集合获得第二全特征集合,所述第二全特征集合包括多个第二全特征,所述第二全特征为字维度上的特征;
根据所述第一全特征和所述第二全特征,确定所述文章片段中每个字作为答案起始位置的第一概率和答案终止位置的第二概率;
根据每个字所对应的所述第一概率和所述第二概率确定所述待回答问题对应的答案。
2.根据权利要求1所述的方法,其特征在于,所述第一先验特征包括所述待回答问题的词性特征、命名实体特征和问题类别特征,所述第一交互特征包括第一共现特征和距离特征,所述第一共现特征指示所述待回答问题中出现的分词,所述距离特征指示所述待回答问题与所述文章片段之间的相似度;
所述第二先验特征包括所述文章片段的词性特征、命名实体特征以及文章类别特征,所述第二交互特征包括第二共现特征和所述距离特征,所述第二共现特征指示所述文章片段中的分词出现在所述待回答问题中。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述第一特征集合和所述第二特征集合获得第一全特征集合,包括:
将所述第二特征集合在字维度上进行处理,获得处理后的第二特征集合;
将所述第一特征集合和所述处理后的第二特征集合进行拼接,获得第一全特征集合;
所述根据所述第三特征集合所述第四特征集合获得第二全特征集合,包括:
将所述第四特征集合在字维度上进行处理,获得处理后的第四特征集合;
所述将所述第三特征集合和所述处理后的第四特征集合进行拼接,获得第二全特征集合。
4.根据权利要求1所述的方法,其特征在于,所述根据所述第一全特征和所述第二全特征,确定所述文章片段中每个字作为答案起始位置的第一概率和答案终止位置的第二概率,包括:
针对特征提取模块输出的最后三层中的任一层对应的第一全特征和第二特征,将所述层对应的所述第一全特征和所述第二全特征经过全注意力机制处理后,获得所述层对应的第三全特征;
将倒数第三层对应的第三全特征与所述倒数第二层对应的第三全特征进行拼接,得到第一目标特征;
将倒数第二层对应的第三全特征与所述倒数第一层对应的第三全特征进行拼接,得到第二目标特征;
基于所述第一目标特征确定所述字作为答案起始位置的第一概率;
基于所述第二目标特征确定所述字作为答案终止位置的第二概率。
5.根据权利要求1所述的方法,其特征在于,所述根据每个字对应的第一概率和所述第二概率确定所述待回答问题对应的答案,包括:
将大于第一概率阈值的第一概率对应的字确定为起始字;
将大于第二概率阈值的第二概率对应的字确定为终止字;
针对任一起始字和终止字,将紧邻的一对所述起始字和所述终止字对应的片段确定为所述待回答问题对应的答案。
6.根据权利要求1所述的方法,其特征在于,所述方法应用于答案抽取模型,所述答案抽取模型为机器学习模型,所述答案抽取模型是利用训练样本训练生成的,所述训练样本包括问题、文章和所述文章中每个字作为答案边界的标签。
7.根据权利要求6所述的方法,其特征在于,训练时所述答案抽取模型是基于Sigmod函数和二分类交叉熵损失函数训练生成的。
8.一种从文章中抽取答案的装置,其特征在于,所述装置包括:
第一获取单元,用于获取待回答问题和文章;
第二获取单元,用于从所述待回答问题中获取第一特征集合和第二特征集合,所述第一特征集合包括所述待回答问题对应的字向量特征、句向量特征以及位置向量特征,所述第二特征集合包括第一先验特征和第一交互特征,所述第一先验特征是根据与所述待回答问题相关的先验知识提取的,所述第一交互特征为所述待回答问题与所述文章相互作用的特征;
所述第二获取单元,还用于针对所述文章中的任一文章片段,从所述文章片段中获取第三特征集合和第四特征集合,所述第三特征集合包括所述文章片段对应的字向量特征、句向量特征以及位置向量特征,所述第四特征集合包括第二先验特征和第二交互特征,所述第二先验特征是根据与所述文章片段相关的先验知识提取的,所述第二交互特征为所述文章片段与所述待回答问题相互作用的特征;
第三获取单元,用于根据所述第一特征集合和所述第二特征集合获得第一全特征集合,所述第一全特征集合包括多个第一全特征,所述第一全特征为字维度上的特征;
所述第三获取单元,还用于根据所述第三特征集合和所述第四特征集合获得第二全特征集合,所述第二全特征集合包括多个第二全特征,所述第二全特征为字维度上的特征;
第一确定单元,用于根据所述第一全特征和所述第二全特征,确定所述文章片段中每个字作为答案起始位置的第一概率和答案终止位置的第二概率;
第二确定单元,用于根据每个字所对应的所述第一概率和所述第二概率确定所述待回答问题对应的答案。
9.一种设备,其特征在于,包括:处理器,存储器;
所述存储器,用于存储计算机可读指令或者计算机程序;
所述处理器,用于读取所述计算机可读指令或所述计算机程序,以使得所述设备实现如权利要求1-7中任意一项所述的从文章中抽取答案的方法。
10.一种计算机可读存储介质,其特征在于,包括指令或计算机程序,当其在计算机上运行时,使得计算机执行以上权利要求1-7任意一项所述的从文章中抽取答案的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210238298.4A CN114661863A (zh) | 2022-03-10 | 2022-03-10 | 一种从文章中抽取答案的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210238298.4A CN114661863A (zh) | 2022-03-10 | 2022-03-10 | 一种从文章中抽取答案的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114661863A true CN114661863A (zh) | 2022-06-24 |
Family
ID=82028572
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210238298.4A Pending CN114661863A (zh) | 2022-03-10 | 2022-03-10 | 一种从文章中抽取答案的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114661863A (zh) |
-
2022
- 2022-03-10 CN CN202210238298.4A patent/CN114661863A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11501182B2 (en) | Method and apparatus for generating model | |
CN110489555B (zh) | 一种结合类词信息的语言模型预训练方法 | |
CN108363790B (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN107798140B (zh) | 一种对话系统构建方法、语义受控应答方法及装置 | |
CN112101041B (zh) | 基于语义相似度的实体关系抽取方法、装置、设备及介质 | |
KR20190133931A (ko) | 문장 패러프레이즈 인식 기반 대화 시스템 답변 방법 | |
US20230069935A1 (en) | Dialog system answering method based on sentence paraphrase recognition | |
CN107247751B (zh) | 基于lda主题模型的内容推荐方法 | |
CN113821605B (zh) | 一种事件抽取方法 | |
CN112052684A (zh) | 电力计量的命名实体识别方法、装置、设备和存储介质 | |
CN113128227A (zh) | 实体抽取方法及装置 | |
CN115146629A (zh) | 一种基于对比学习的新闻文本与评论相关性分析方法 | |
CN113723105A (zh) | 语义特征提取模型的训练方法、装置、设备及存储介质 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN111241397A (zh) | 一种内容推荐方法、装置和计算设备 | |
CN115658890A (zh) | 基于主题增强的情感共注意力bert模型的中文评论分类方法 | |
CN112507124A (zh) | 一种基于图模型的篇章级别事件因果关系抽取方法 | |
CN112800184A (zh) | 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法 | |
CN114970536A (zh) | 一种分词、词性标注和命名实体识别的联合词法分析方法 | |
CN110929518A (zh) | 一种使用重叠拆分规则的文本序列标注算法 | |
CN110852071A (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
CN116522165B (zh) | 一种基于孪生结构的舆情文本匹配系统及方法 | |
CN117828024A (zh) | 一种插件检索方法、装置、存储介质及设备 | |
CN116108840A (zh) | 一种文本细粒度情感分析方法、系统、介质和计算设备 | |
CN115796141A (zh) | 文本数据增强方法和装置、电子设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |