CN113312912B - 一种用于交通基础设施检测文本的机器阅读理解方法 - Google Patents

一种用于交通基础设施检测文本的机器阅读理解方法 Download PDF

Info

Publication number
CN113312912B
CN113312912B CN202110711212.0A CN202110711212A CN113312912B CN 113312912 B CN113312912 B CN 113312912B CN 202110711212 A CN202110711212 A CN 202110711212A CN 113312912 B CN113312912 B CN 113312912B
Authority
CN
China
Prior art keywords
character
text
paragraph
vector
traffic infrastructure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110711212.0A
Other languages
English (en)
Other versions
CN113312912A (zh
Inventor
杨建喜
向芳悦
李韧
李东
蒋仕新
刘新龙
王笛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Jiaotong University
Original Assignee
Chongqing Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Jiaotong University filed Critical Chongqing Jiaotong University
Priority to CN202110711212.0A priority Critical patent/CN113312912B/zh
Publication of CN113312912A publication Critical patent/CN113312912A/zh
Application granted granted Critical
Publication of CN113312912B publication Critical patent/CN113312912B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明涉及人工智能技术领域,具体涉及一种用于交通基础设施检测文本的机器阅读理解方法,包括:获取问题文本和待检测的段落文本;阅读理解模型首先对问题文本和段落文本进行编码得到对应的待检测字符向量;然后将待检测字符向量和设置的交通基础设施检测领域词向量进行融合得到对应的嵌入融合表示,并对嵌入融合表示进行语义特征捕捉;最后根据嵌入融合表示和捕捉的语义特征计算对应答案在段落文本中的字符位置,并将对应答案的字符位置作为段落文本的机器阅读理解结果;输出段落文本对应的机器阅读理解结果。本发明中的机器阅读理解方法能够兼顾理解全面性和理解准确性,从而能够提升交通基础设施检测领域中文文本的理解效果。

Description

一种用于交通基础设施检测文本的机器阅读理解方法
技术领域
本发明涉及人工智能技术领域,具体涉及一种用于交通基础设施检测文本的机器阅读理解方法。
背景技术
机器阅读理解是自然语言处理(Natural Language Processing,NLP)领域里的重要研究方向,其要求机器基于给定的上下文回答问题。机器阅读理解是人工智能技术的重要组成部分,过去几年里,随着深度学习的出现,机器阅读理解已经赢得了越来越广泛的关注,尤其是随着以BERT(Bidirectional Encoder Representations from Transformer)为代表的预训练语言模型的发展,机器阅读理解任务有着飞速的发展,主要体现为从关注限定文本到结合外部知识,从关注特定片段到对上下文的全面理解。
相比于普遍存在的面向英文文本的通用领域机器阅读理解方法,面向中文文本的机器阅读理解的理解准确率并不高,例如中文文本中不同的分词对应的语义等会发生变化,进而得到不同的理解。为此,公开号为CN110442691A的中国专利公开了《机器阅读理解中文的方法》,其通过BERT模型对第一问题中文文本和第一中文文本进行向量化训练,然后通过预设的第一中文机器阅读理解模型进行计算,得到对应问题文本的第一答案文本。该现有方案中,由于无需对第一问题中文文本和第一中文文本进行分词处理,所以不存在分词不当的情况发生,使得最终得到的第一答案文本的准确率更高。
申请人致力于交通基础设施检测领域的研究,交通基础设施在道路、桥梁日常服役中受到交通荷载、环境激励、突发事件以及其结构材料属性退化等内外因素的共同作用。同时,交通基础设施管理养护单位在日常检测中,积累了海量的交通基础设施健康管理历史数据。这些海量的文本数据包含大量的基本属性、结构参数、养护维修建议和检测病害等信息,并主要以自由文本、表格、图片等非结构化或半结构化数据构成。其中,对于检测单位出具的交通基础设施检测报告的文本检测尤为重要。
申请人发现,上述现有方案中的机器阅读理解方法仅能够针对通用的中文文本实施。然而,不同检测单位出具的交通基础设施检测报告在行文思路、符号运用和报告规范上具有较大差异,采用现有机器阅读理解方法会使得交通基础设施检测报告中包含的信息不能被计算机有效的利用,导致机器阅读理解的全面性不好。同时,交通基础设施检测领域具有丰富的专业术语,使用现有机器阅读理解方法难以对文本进行准确分词并理解其语义特征,导致机器阅读理解的准确性不好。因此,如何设计一种能够应用于交通基础设施检测文本且能够兼顾理解全面性和理解准确性的机器阅读理解方法是亟需解决的技术问题。
发明内容
针对上述现有技术的不足,本发明所要解决的技术问题是:如何提供一种能够应用于交通基础设施检测文本且能够兼顾理解全面性和理解准确性的机器阅读理解方法,从而能够提升交通基础设施检测领域中文文本的理解效果。
为了解决上述技术问题,本发明采用了如下的技术方案:
一种用于交通基础设施检测文本的机器阅读理解方法,具体包括:
S1:获取问题文本和待检测的段落文本;
S2:将所述问题文本和所述段落文本输入经过预先训练的阅读理解模型中;
所述阅读理解模型首先对所述问题文本和所述段落文本进行编码得到对应的待检测字符向量;然后将所述待检测字符向量和设置的交通基础设施检测领域词向量进行融合得到对应的嵌入融合表示,并对所述嵌入融合表示进行语义特征捕捉;最后根据所述嵌入融合表示和捕捉的语义特征计算对应答案在所述段落文本中的字符位置,并将对应答案的字符位置作为所述段落文本的机器阅读理解结果;
S3:输出所述段落文本对应的机器阅读理解结果。
优选的,步骤S2中,通过如下步骤对所述问题文本和所述段落文本进行编码:
S201:分别对所述问题文本和所述段落文本进行字符序列化表示,得到对应的问题字符序列和段落字符序列;
S202:通过bert模型对所述问题字符序列和所述段落字符序列进行向量嵌入,得到对应的问题字符向量和段落字符向量;
S203:对整合所述问题字符向量和段落字符向量得到对应的待检测字符向量。
优选的,问题字符序列表示为Q=[q1,q2,...,qm];式中:qi表示问题文本中的第i个字符;
段落字符序列表示为C=[d1,d2,...,dn];式中:di表示段落文本中的第i个字符;
整合时使用[SEP]作为分隔符,通过[[CLS]Q[SEP]C[SEP]]的形式构成待检测字符向量。
优选的,步骤S2中,通过如下步骤设置交通基础设施检测领域词向量:
S211:将已有的交通基础设施检测报告作为语料,并通过jieba分词的方式构建对应的交通基础设施检测领域词典;
S212:通过word2vec中的skip-gram模型对交通基础设施检测领域词典中的各个词进行词向量嵌入和词向量训练,得到对应的交通基础设施检测领域词向量。
优选的,步骤S212中,word2vec中的skip-gram模型通过如下步骤进行词向量训练:
将交通基础设施检测领域词典中的每个词表示成两个d维向量,分别作为中心词和背景词;
对中心词和背景词的向量做内积运算,并结合softmax函数计算中心词生成背景词的条件概率;
定义条件概率的损失函数并通过求导计算梯度的方式更新背景词的权重。
优选的,步骤S2中,通过如下步骤计算对应答案在所述段落文本中的字符位置:
S221:根据捕捉的语义特征确定所述问题文本中问题的最终表示和所述段落文本中各个字符的最终表示,并将所述嵌入融合表示通过线性层降为二维表示;
S222:根据对应的二维表示结合softmax函数分别计算对应答案的开始位置预测概率分数和结束位置预测概率分数;
S223:将开始位置预测概率分数取最大值时对应字符的位置作为对应答案的开始字符位置;将结束位置预测概率分数取最大值时对应字符的位置作为对应答案的结束字符位置;
S224:将对应答案的开始字符位置和结束字符位置作为所述段落文本的机器阅读理解结果。
优选的,通过如下公式计算开始位置预测概率:
Figure BDA0003133834200000031
式中:Pi s表示开始位置预测概率分数;Ws表示开始位置的参数学习矩阵;uQ表示问题的最终表示;/>
Figure BDA0003133834200000032
表示段落文本中第i个字符的最终表示;
Figure BDA0003133834200000033
式中:Pi e表示结束位置预测概率分数;We表示结束位置的参数学习矩阵;uQ表示问题的最终表示;/>
Figure BDA0003133834200000034
表示段落文本中第i个字符的最终表示。
优选的,步骤S2中,通过star-transformer模型对所述待检测字符向量和所述交通基础设施检测领域词向量进行融合和语义特征捕捉。
优选的,训练所述阅读理解模型时,通过如下公式计算star-transformer模型的多头注意力:
注意力公式
Figure BDA0003133834200000035
式中:q、K、V分别表示查询向量、键向量和值向量;d表示向量维度;
多头注意力公式
Figure BDA0003133834200000036
式中:ai=Att(qWi Q,HWi K,HWi V),i∈[1,k];给定序列H∈Rn×d,K=HWK,V=HWV;WK、WV、Wi Q,Wi K,Wi V,WO均表示star-transformer模型的可学习参数;k表示头的数量。
优选的,训练所述阅读理解模型时,通过如下步骤更新star-transformer模型的中继节点和卫星节点:
通过公式H0=E和S0=average(E)初始化卫星节点Ht∈Rn×d和中继节点st∈R1×d
通过如下公式更新所有的卫星节点:
Figure BDA0003133834200000041
Figure BDA0003133834200000042
Figure BDA0003133834200000043
式中:
Figure BDA0003133834200000044
表示t时刻第i个卫星节点的全局语义信息;/>
Figure BDA0003133834200000045
表示t时刻第i个卫星节点的状态,/>
Figure BDA0003133834200000046
表示t-1时刻第i个卫星节点的状态;RELU为激活函数,用于过滤小于0的值,LayerNorm表示层正则化,用于完成数据归一化;
结合当前卫星节点通过多头注意力机制和RELU激活函数、层正则化和如下公式更新中继节点:
st=MultiAtt(st-1,[st-1;Ht]);
st=LayerNorm(ReLU(st));
式中:st表示t时刻中继节点的状态,st-1表示t-1时刻中继节点的状态;RELU为激活函数,用于过滤小于0的值,LayerNorm表示层正则化,用于完成数据归一化。
本发明中的机器阅读理解方法与现有技术相比,具有如下有益效果:
在本发明中,通过文本编码的方式统一文本格式,使得模型能够适应不同行文思路、符号运用和报告规范的文本,即能够提升机器阅读理解的全面性;同时,通过融合交通基础设施检测领域词向量的方式引入了交通基础设施检测领域的外部知识,使得能够对文本进行准确分词并理解其语义特征,进而能够提高答案在词粒度上的表现效果,即能够提升机器阅读理解的准确性,因此,本发明能够兼顾理解全面性和理解准确性,从而能够提升交通基础设施检测领域中文文本的理解效果。此外,本发明通过捕捉语义特征的方式学习和关注局部以及长距离依赖关系,能够帮助捕捉长文本中的长距离语义依赖关系,能够有效地降低局部和非局部成分的无偏差学习负担,从而能够提模型泛化能力。最后,本发明通过计算字符位置的方式确定问题文本的答案,能够进一步提升机器阅读理解的准确性。
附图说明
为了使发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,其中:
图1为实施例中机器阅读理解方法的逻辑框图;
图2为实施例中阅读理解模型的网络结构图;
图3为实施例中段落文本、问题文本和对应答案的示意图。
具体实施方式
下面通过具体实施方式进一步详细的说明:
实施例:
本实施例中公开了一种用于交通基础设施检测文本的机器阅读理解方法。
如图1所示,一种用于交通基础设施检测文本的机器阅读理解方法,具体包括:
S1:获取问题文本和待检测的段落文本。具体的,待检测的段落文本包括交通基础设施检测报告中的某一段或几段的文本内容。
S2:将问题文本和段落文本输入经过预先训练的阅读理解模型中;
结合图2所示,阅读理解模型包括编码层、融合层和输出层(全连接层)。首先在编码层中对问题文本和段落文本进行编码得到对应的待检测字符向量;然后在融合层中将待检测字符向量和设置的交通基础设施检测领域词向量进行融合得到对应的嵌入融合表示,并对嵌入融合表示进行语义特征捕捉;最后在输出层中根据嵌入融合表示和捕捉的语义特征计算对应答案在段落文本中的字符位置,并将对应答案的字符位置作为段落文本的机器阅读理解结果;
S3:输出段落文本对应的机器阅读理解结果。具体的,根据输出的机器阅读理解结果能够在待检测的段落文本中确定答案的所在位置,段落文本、问题文本和对应答案之间的对应关系如图3所示。
在本发明中,通过文本编码的方式统一文本格式,使得模型能够适应不同行文思路、符号运用和报告规范的文本,即能够提升机器阅读理解的全面性;同时,通过融合交通基础设施检测领域词向量的方式引入了交通基础设施检测领域的外部知识,使得能够对文本进行准确分词并理解其语义特征,进而能够提高答案在词粒度上的表现效果,即能够提升机器阅读理解的准确性,因此,本发明能够兼顾理解全面性和理解准确性,从而能够提升交通基础设施检测领域中文文本的理解效果。此外,本发明通过捕捉语义特征的方式学习和关注局部以及长距离依赖关系,能够帮助捕捉长文本中的长距离语义依赖关系,能够有效地降低局部和非局部成分的无偏差学习负担,从而能够提高模型泛化能力。最后,本发明通过计算字符位置的方式确定问题文本的答案,能够进一步提升机器阅读理解的准确性。
具体实施过程中,通过如下步骤对问题文本和段落文本进行编码:
S201:分别对问题文本和段落文本进行字符序列化表示,得到对应的问题字符序列和段落字符序列。具体的,问题字符序列表示为Q=[q1,q2,...,qm];式中:qi表示问题文本中的第i个字符;段落字符序列表示为C=[d1,d2,...,dn];式中:di表示段落文本中的第i个字符。
S202:通过bert模型对问题字符序列和段落字符序列进行向量嵌入,得到对应的问题字符向量和段落字符向量。具体的,在bert模型自带的词典中通过查表操作得到字符的向量。
S203:对整合问题字符向量和段落字符向量得到对应的待检测字符向量。具体的,结合图2所示,整合时使用[SEP]作为分隔符,通过[[CLS]Q[SEP]C[SEP]]的形式构成待检测字符向量。
在本发明中,通过bert模型能够有效的对问题文本和段落文本进行编码,进而能够统一文本格式,使得模型能够适应不同行文思路、符号运用和报告规范的文本,从而能够进一步提升机器阅读理解的全面性。
具体实施过程中,通过如下步骤设置交通基础设施检测领域词向量:
S211:将已有的交通基础设施检测报告作为语料,并通过jieba分词的方式构建对应的交通基础设施检测领域词典。具体的,jieba分词的具体过程是:结合交通基础设施检测领域知识,在现有中文分词算法基础上对交通基础设施检测报告进行语料拆分、标注,并构建交通基础设施检测语料库,然后识别交通基础设施检测语料库中的新词、区分有歧义的专业术语,构建交通基础设施检测领域词典,进一步提高面向交通基础设施检测领域的中文分词精度。
S212:通过word2vec中的skip-gram模型对交通基础设施检测领域词典中的各个词进行词向量嵌入和词向量训练,得到对应的交通基础设施检测领域词向量(交通基础设施检测领域知识表示)。
具体的,通过如下步骤进行词向量训练:
将交通基础设施检测领域词典中的每个词表示成两个d维向量,分别作为中心词和背景词。具体的,作为中心词时,向量表示为vi∈Rd;作为背景词时,向量表示为ui∈Rd;其中,中心词wc在词典中索引为c,背景词wo在词典中索引为o。
对中心词和背景词的向量做内积运算,并结合softmax函数计算中心词生成背景词的条件概率。
定义条件概率的损失函数并通过求导计算梯度的方式更新背景词的权重。
具体的,通过公式
Figure BDA0003133834200000071
计算条件概率;
通过公式
Figure BDA0003133834200000072
定义损失函数;
式中:
Figure BDA0003133834200000073
表示交通基础设施检测领域词典中索引为o的背景词向量;/>
Figure BDA0003133834200000074
表示第i个转置后的背景词向量;vc表示中心词向量;/>
Figure BDA0003133834200000075
表示把背景词向量和中心词向量交互后基于exp函数求和。
在本发明中,通过jieba分词和word2vec训练得到能够增强输入特征表达、能够提高面向交通基础设施检测领域中文分词精度的交通基础设施检测领域词向量,使得能够对文本进行准确分词并理解其语义特征,进而能够提高答案在词粒度上的表现效果,从而能够进一步提升机器阅读理解的准确性。
具体实施过程中,通过如下步骤计算对应答案在段落文本中的字符位置:
S221:根据捕捉的语义特征确定问题文本中问题的最终表示和段落文本中各个字符的最终表示,并将嵌入融合表示通过线性层降为二维表示;
S222:根据对应的二维表示结合softmax函数分别计算对应答案的开始位置预测概率分数和结束位置预测概率分数;
S223:将开始位置预测概率分数取最大值时对应字符的位置作为对应答案的开始字符位置;将结束位置预测概率分数取最大值时对应字符的位置作为对应答案的结束字符位置;
S224:将对应答案的开始字符位置和结束字符位置作为段落文本的机器阅读理解结果。
具体的,通过如下公式计算开始位置预测概率:
Figure BDA0003133834200000076
式中:Pi s表示开始位置预测概率分数;Ws表示开始位置的参数学习矩阵;uQ表示问题的最终表示;/>
Figure BDA0003133834200000077
表示段落文本中第i个字符的最终表示;
Figure BDA0003133834200000078
式中:Pi e表示结束位置预测概率分数;We表示结束位置的参数学习矩阵;uQ表示问题的最终表示;/>
Figure BDA0003133834200000079
表示段落文本中第i个字符的最终表示。
在本发明中,通过计算开始字符位置和结束字符位置概率分数的方式能够有效预测答案,进而能够准确的确定问题文本的答案,从而能够进一步提升机器阅读理解的准确性。
具体实施过程中,步骤S2中,通过star-transformer模型对待检测字符向量和交通基础设施检测领域词向量进行融合和语义特征捕捉。
在本发明中,以Bert(预训练微调模型)为Baseline,针对交通基础设施检测领域大部分需要回答的答案长度过长,而引入star-transformer模型机制实现融合和语义特征捕捉,star-transformer模型的星型拓扑结构可以有侧重的学习和关注局部以及长距离依赖关系,能够有效的帮助捕捉长文本中的长距离语义依赖关系,并且由于其结构具有较好的并行能力和较低的复杂度,能够更为有效地降低局部和非局部成分的无偏差学习负担,从而能够进一步提高模型的泛化能力。
具体实施过程中,通过已有交通基础设施检测报告作为训练文本数据对阅读理解模型进行训练,训练过程参考步骤S2:首先在编码层中对训练文本数据及其问题文本进行编码得到对应的训练字符向量;然后在融合层中将训练字符向量和设置的交通基础设施检测领域词向量进行融合得到对应的训练嵌入融合表示,并对训练嵌入融合表示进行语义特征捕捉;最后在输出层中根据训练嵌入融合表示和捕捉的语义特征计算对应答案在段落文本中的字符位置,并将对应答案的字符位置作为段落文本的机器阅读理解训练结果。通过将机器阅读理解训练结果与人工输入结果比较的方式评价阅读理解模型的训练效果,当阅读理解模型输出机器阅读理解训练结果的损失很小且趋于收敛时模型训练完成。
具体的,训练阅读理解模型时,通过如下公式计算star-transformer模型的多头注意力:
注意力公式
Figure BDA0003133834200000081
通过给定一个任务相关的查询Query向量Q,通过计算与Key的注意力分布并附加在Value上,从而计算向量之间的注意力分布。
式中:q、K、V分别表示查询向量、键向量和值向量;d表示向量维度;
多头注意力公式
Figure BDA0003133834200000082
使用多个头去学习和关注q与H之间不同的特征,将几个头学习到的注意力信息融合。
式中:ai=Att(qWi Q,HWi K,HWi V),i∈[1,k];给定序列H∈Rn×d,K=HWK,V=HWV;WK、WV、Wi Q,Wi K,Wi V,WO均表示可star-transformer模型的学习参数;k表示头的数量。
具体的,训练阅读理解模型时,需要更新Star-transformer模型中的一些参数,结构中需要一个中继节点st∈R1×d和许多卫星节点Ht∈Rn×d,本实施例将融合层得到的输出作为嵌入,记为E=[e1,…,en],ei∈R1×d是第i个字词的联合嵌入。
通过如下步骤更新star-transformer模型的中继节点和卫星节点:
通过如下公式更新所有的卫星节点:
Figure BDA0003133834200000091
Figure BDA0003133834200000092
整个公式表示/>
Figure BDA0003133834200000093
是由第i个卫星的历史信息和全局信息进行注意力机制计算得到;
Figure BDA0003133834200000094
式中:
Figure BDA0003133834200000095
表示t时刻第i个卫星节点的全局语义信息(全局语义信息融合了历史信息、相邻局部信息、初始信息和上一时刻的中继节点信息);/>
Figure BDA0003133834200000096
表示t时刻第i个卫星节点的状态,/>
Figure BDA0003133834200000097
表示t-1时刻第i个卫星节点的状态;RELU为激活函数,用于过滤小于0的值,LayerNorm表示层正则化,用于完成数据归一化;
结合当前卫星节点通过多头注意力机制和RELU激活函数、层正则化和如下公式更新中继节点:
st=MultiAtt(st-1,[st-1;Ht]);整个公式表示st是由t-1时刻中继节点的历史信息和t-1时刻中继节点与t时刻所有卫星节点联合的信息进行多头注意力机制计算得到;
st=LayerNorm(ReLU(st));
式中:st表示t时刻中继节点的状态,st-1表示t-1时刻中继节点的状态;RELU为激活函数,用于过滤小于0的值,LayerNorm表示层正则化,用于完成数据归一化。
需要说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管通过参照本发明的优选实施例已经对本发明进行了描述,但本领域的普通技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离所附权利要求书所限定的本发明的精神和范围。同时,实施例中公知的具体结构及特性等常识在此未作过多描述。最后,本发明要求的保护范围应当以其权利要求的内容为准,说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims (8)

1.一种用于交通基础设施检测文本的机器阅读理解方法,其特征在于,具体包括:
S1:获取问题文本和待检测的段落文本;
S2:将所述问题文本和所述段落文本输入经过预先训练的阅读理解模型中;
所述阅读理解模型首先对所述问题文本和所述段落文本进行编码得到对应的待检测字符向量;然后将所述待检测字符向量和设置的交通基础设施检测领域词向量进行融合得到对应的嵌入融合表示,并对所述嵌入融合表示进行语义特征捕捉;最后根据捕捉的语义特征计算对应答案在所述段落文本中的字符位置,并将对应答案的字符位置作为所述段落文本的机器阅读理解结果;
通过如下步骤计算对应答案在所述段落文本中的字符位置:
S221:根据捕捉的语义特征确定所述问题文本中问题的最终表示和所述段落文本中各个字符的最终表示;
S222:根据所述问题文本中问题的最终表示和所述段落文本中各个字符的最终表示计算对应答案的开始位置预测概率分数和结束位置预测概率分数;
S223:将开始位置预测概率分数取最大值时对应字符的位置作为对应答案的开始字符位置;将结束位置预测概率分数取最大值时对应字符的位置作为对应答案的结束字符位置;
S224:将对应答案的开始字符位置和结束字符位置作为所述段落文本的机器阅读理解结果;
通过star-transformer模型对所述待检测字符向量和所述交通基础设施检测领域词向量进行融合和语义特征捕捉;
S3:输出所述段落文本对应的机器阅读理解结果。
2.如权利要求1所述的用于交通基础设施检测文本的机器阅读理解方法,其特征在于,步骤S2中,通过如下步骤对所述问题文本和所述段落文本进行编码:
S201:分别对所述问题文本和所述段落文本进行字符序列化表示,得到对应的问题字符序列和段落字符序列;
S202:通过bert模型对所述问题字符序列和所述段落字符序列进行向量嵌入,得到对应的问题字符向量和段落字符向量;
S203:对整合所述问题字符向量和段落字符向量得到对应的待检测字符向量。
3.如权利要求2所述的用于交通基础设施检测文本的机器阅读理解方法,其特征在于:
问题字符序列表示为Q=[q1,q2,...,qm];式中:qi表示问题文本中的第i个字符;
段落字符序列表示为C=[d1,d2,...,dn];式中:di表示段落文本中的第i个字符;
整合时使用[SEP]作为分隔符,通过[[CLS]Q[SEP]C[SEP]]的形式构成待检测字符向量。
4.如权利要求1所述的用于交通基础设施检测文本的机器阅读理解方法,其特征在于,步骤S2中,通过如下步骤设置交通基础设施检测领域词向量:
S211:将已有的交通基础设施检测报告作为语料,并通过jieba分词的方式构建对应的交通基础设施检测领域词典;
S212:通过word2vec中的skip-gram模型对交通基础设施检测领域词典中的各个词进行词向量嵌入和词向量训练,得到对应的交通基础设施检测领域词向量。
5.如权利要求4所述的用于交通基础设施检测文本的机器阅读理解方法,其特征在于:步骤S212中,word2vec中的skip-gram模型通过如下步骤进行词向量训练:
将交通基础设施检测领域词典中的每个词表示成两个d维向量,分别作为中心词和背景词;
对中心词和背景词的向量做内积运算,并结合softmax函数计算中心词生成背景词的条件概率;
定义条件概率的损失函数并通过求导计算梯度的方式更新背景词的权重。
6.如权利要求1所述的用于交通基础设施检测文本的机器阅读理解方法,其特征在于:
通过如下公式计算开始位置预测概率:
Figure FDA0004004912640000021
式中:/>
Figure FDA0004004912640000022
表示开始位置预测概率分数;Ws表示开始位置的参数学习矩阵;uQ表示问题的最终表示;/>
Figure FDA0004004912640000023
表示段落文本中第i个字符的最终表示;
Figure FDA0004004912640000024
式中:Pi e表示结束位置预测概率分数;We表示结束位置的参数学习矩阵;uQ表示问题的最终表示;/>
Figure FDA0004004912640000026
表示段落文本中第i个字符的最终表示。
7.如权利要求1所述的用于交通基础设施检测文本的机器阅读理解方法,其特征在于,训练所述阅读理解模型时,通过如下公式计算star-transformer模型的多头注意力:
注意力公式
Figure FDA0004004912640000027
式中:q、K、V分别表示查询向量、键向量和值向量;d表示向量维度;
多头注意力公式
Figure FDA0004004912640000028
式中:
Figure FDA0004004912640000031
给定序列H∈Rn×d,K=HWK,V=HWV;WK、WV
Figure FDA0004004912640000037
WO均表示star-transformer模型的可学习参数;k表示头的数量。
8.如权利要求1所述的用于交通基础设施检测文本的机器阅读理解方法,其特征在于,训练所述阅读理解模型时,通过如下步骤更新star-transformer模型的中继节点和卫星节点:
通过公式H0=E和S0=average(E)初始化卫星节点Ht∈Rn×d和中继节点st∈R1×d
通过如下公式更新所有的卫星节点:
Figure FDA0004004912640000032
Figure FDA0004004912640000033
Figure FDA0004004912640000034
式中:
Figure FDA0004004912640000038
表示t时刻第i个卫星节点的全局语义信息;/>
Figure FDA0004004912640000035
表示t时刻第i个卫星节点的状态,/>
Figure FDA0004004912640000036
表示t-1时刻第i个卫星节点的状态;RELU为激活函数,用于过滤小于0的值,LayerNorm表示层正则化,用于完成数据归一化;/>
结合当前卫星节点通过如下公式更新中继节点:
st=MultiAtt(st-1,[st-1;Ht]);
st=LayerNorm(ReLU(st));
式中:st表示t时刻中继节点的状态,st-1表示t-1时刻中继节点的状态;RELU为激活函数,用于过滤小于0的值,LayerNorm表示层正则化,用于完成数据归一化。
CN202110711212.0A 2021-06-25 2021-06-25 一种用于交通基础设施检测文本的机器阅读理解方法 Active CN113312912B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110711212.0A CN113312912B (zh) 2021-06-25 2021-06-25 一种用于交通基础设施检测文本的机器阅读理解方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110711212.0A CN113312912B (zh) 2021-06-25 2021-06-25 一种用于交通基础设施检测文本的机器阅读理解方法

Publications (2)

Publication Number Publication Date
CN113312912A CN113312912A (zh) 2021-08-27
CN113312912B true CN113312912B (zh) 2023-03-31

Family

ID=77380277

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110711212.0A Active CN113312912B (zh) 2021-06-25 2021-06-25 一种用于交通基础设施检测文本的机器阅读理解方法

Country Status (1)

Country Link
CN (1) CN113312912B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111951803B (zh) * 2020-08-13 2022-12-16 东北林业大学 基于Star-Transformer的口语理解方法、系统及设备
CN114611486B (zh) * 2022-03-09 2022-12-16 上海弘玑信息技术有限公司 信息抽取引擎的生成方法及装置、电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110083682A (zh) * 2019-04-19 2019-08-02 西安交通大学 一种基于多轮注意力机制的机器阅读理解答案获取方法
CN110929515A (zh) * 2019-11-21 2020-03-27 中国民航大学 基于协同注意力和自适应调整的阅读理解方法及系统
CN111027327A (zh) * 2019-10-29 2020-04-17 平安科技(深圳)有限公司 机器阅读理解方法、设备、存储介质及装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492227A (zh) * 2018-11-16 2019-03-19 大连理工大学 一种基于多头注意力机制和动态迭代的机器阅读理解方法
CN110597947B (zh) * 2019-03-20 2023-03-28 桂林电子科技大学 一种基于全局和局部注意力交互的阅读理解系统及方法
CN110083838B (zh) * 2019-04-29 2021-01-19 西安交通大学 基于多层神经网络与外部知识库的生物医学语义关系提取方法
CN110188362B (zh) * 2019-06-10 2021-04-20 北京百度网讯科技有限公司 文本处理方法及装置
CN110502627A (zh) * 2019-08-28 2019-11-26 上海海事大学 一种基于多层Transformer聚合编码器的答案生成方法
CN111078836B (zh) * 2019-12-10 2023-08-08 中国科学院自动化研究所 基于外部知识增强的机器阅读理解方法、系统、装置
CN111966797B (zh) * 2020-07-23 2023-04-07 天津大学 利用引入了语义信息的词向量进行机器阅读理解的方法
CN111951803B (zh) * 2020-08-13 2022-12-16 东北林业大学 基于Star-Transformer的口语理解方法、系统及设备
CN111930914B (zh) * 2020-08-14 2023-09-12 中国工商银行股份有限公司 问题生成方法和装置、电子设备以及计算机可读存储介质
CN112464643B (zh) * 2020-11-26 2022-11-15 广州视源电子科技股份有限公司 一种机器阅读理解方法、装置、设备及存储介质
CN112818128B (zh) * 2021-01-21 2022-08-09 上海电力大学 一种基于知识图谱增益的机器阅读理解系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110083682A (zh) * 2019-04-19 2019-08-02 西安交通大学 一种基于多轮注意力机制的机器阅读理解答案获取方法
CN111027327A (zh) * 2019-10-29 2020-04-17 平安科技(深圳)有限公司 机器阅读理解方法、设备、存储介质及装置
CN110929515A (zh) * 2019-11-21 2020-03-27 中国民航大学 基于协同注意力和自适应调整的阅读理解方法及系统

Also Published As

Publication number Publication date
CN113312912A (zh) 2021-08-27

Similar Documents

Publication Publication Date Title
CN110825845B (zh) 一种基于字符与自注意力机制的层次文本分类方法及中文文本分类方法
CN114064918B (zh) 一种多模态事件知识图谱构建方法
CN110196982B (zh) 上下位关系抽取方法、装置及计算机设备
Wehrmann et al. Bidirectional retrieval made simple
CN111563166A (zh) 一种针对数学问题分类的预训练模型方法
CN113312912B (zh) 一种用于交通基础设施检测文本的机器阅读理解方法
CN111680484B (zh) 一种视觉常识推理问答题的答题模型生成方法和系统
CN111263238B (zh) 基于人工智能的生成视频评论的方法及设备
Sharma et al. A survey of methods, datasets and evaluation metrics for visual question answering
Lopes et al. An AutoML-based approach to multimodal image sentiment analysis
CN114821271B (zh) 模型训练方法、图像描述生成方法、装置及存储介质
CN111966812A (zh) 一种基于动态词向量的自动问答方法和存储介质
CN114419642A (zh) 一种文档图像中键值对信息的抽取方法、装置及系统
CN112597296A (zh) 一种基于计划机制和知识图谱引导的摘要生成方法
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN114186568A (zh) 一种基于关系编码和层次注意力机制的图像段落描述方法
CN115659947A (zh) 基于机器阅读理解及文本摘要的多项选择答题方法及系统
CN112528989B (zh) 一种图像语义细粒度的描述生成方法
CN117390131A (zh) 一种用于多领域的文本情感分类方法
CN117113937A (zh) 一种基于大规模语言模型的电力领域阅读理解方法和系统
Ji et al. LSTM based semi-supervised attention framework for sentiment analysis
CN116843175A (zh) 一种合同条款风险检查方法、系统、设备和存储介质
CN116662924A (zh) 基于双通道与注意力机制的方面级多模态情感分析方法
CN116432660A (zh) 一种情感分析模型的预训练方法、装置和电子设备
CN115129807A (zh) 基于自注意的社交媒体主题评论的细粒度分类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant