CN114547256A - 面向消防安全知识智能问答的文本语义匹配方法和装置 - Google Patents

面向消防安全知识智能问答的文本语义匹配方法和装置 Download PDF

Info

Publication number
CN114547256A
CN114547256A CN202210337395.9A CN202210337395A CN114547256A CN 114547256 A CN114547256 A CN 114547256A CN 202210337395 A CN202210337395 A CN 202210337395A CN 114547256 A CN114547256 A CN 114547256A
Authority
CN
China
Prior art keywords
text
word
granularity
formula
represented
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210337395.9A
Other languages
English (en)
Other versions
CN114547256B (zh
Inventor
鹿文鹏
张鑫
赵鹏宇
郑超群
马凤英
乔新晓
张维玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qilu University of Technology
Original Assignee
Qilu University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qilu University of Technology filed Critical Qilu University of Technology
Priority to CN202210337395.9A priority Critical patent/CN114547256B/zh
Publication of CN114547256A publication Critical patent/CN114547256A/zh
Application granted granted Critical
Publication of CN114547256B publication Critical patent/CN114547256B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种面向消防安全知识智能问答的文本语义匹配方法和装置,属于自然语言处理技术领域。本发明要解决的技术问题为如何捕获更多的语义上下文特征、不同维度间编码信息的联系和文本间的交互信息,以实现文本的智能语义匹配,采用的技术方案为:通过构建并训练由文本嵌入模块、输入编码模块、多粒度交互模块、特征融合模块和预测模块组成文本语义匹配模型,实现对文本信息的多层次文本特征提取,同时通过最大池化、平均池化以及多种方法匹配机制获得文本语义的最终匹配表示向量,进而判定文本的匹配程度。该装置包括文本匹配知识库构建单元、训练数据集生成单元、文本语义匹配模型构建单元及文本语义匹配模型训练单元。

Description

面向消防安全知识智能问答的文本语义匹配方法和装置
技术领域
本发明涉及人工智能、自然语言处理技术领域,具体涉及面向消防安全知识智能问答的文本语义匹配方法和装置。
背景技术
有效的消防安全教育,对于降低消防安全隐患、保护民众的财产安全具有重要意义。面对广泛的安全教育需求,如何利用人机交互技术实现消防安全知识的智能自动问答,以满足群众的自我学习的需要,是一个亟待解决的问题。智能问答系统能够针对用户提出的问题自动在问答知识库中找到与之语义相近的标准问题,并将该标准问题的答案推送给用户,可以大大减轻人工答复的负担。对于用户提出的千差万别的消防安全知识问题,如何为其找到与之语义相近的标准问题,是面向消防安全知识智能问答系统的核心技术。该技术的本质是衡量用户提出的问题与问答知识库中标准问题的匹配程度,其实质是文本语义匹配任务。
文本语义匹配任务旨在衡量两个文本所蕴含的语义是否一致,这与许多自然语言处理任务的核心目标是一致的。自然语言文本的语义匹配度计算是一项极具挑战的工作,现有方法还尚未能完善地解决这一问题。
现有方法通常通过捕捉词粒度上的语义信息取得了很好的性能,但是往往这些方法侧重于英文,对汉语的语义匹配研究较少,目前基于汉语的语义匹配方法只是考虑字和词粒度信息,但是,拼音以及部首粒度信息也是非常重要的特征。
针对现有的文本语义匹配方法的不足和消防安全知识智能问答的需要,本发明提出了一种面向消防安全知识智能问答的文本语义匹配方法和装置。该方法对文本进行多粒度语义提取,可以使提取的语义特征更加全面;实现一种多层次提取语义特征的网络结构,使得捕获不同层次的语义特征;使用注意力机制对文本进行编码处理,并有效捕获文本间的交互特征。其核心思想是通过多层编码结构对文本进行多粒度特征的提取,随后将不同层次的语义特征联接,通过最大池化和平均池化提取关键语义信息,进而利用多种文本匹配机制进行预测文本匹配程度。
发明内容
本发明的技术任务是提供一种面向消防安全知识智能问答的文本语义匹配方法和装置,通过捕获更多的语义上下文特征、不同维度间编码信息的联系和文本间的交互信息,以实现文本的智能语义匹配。
本发明的技术任务是按以下方式实现的,面向消防安全知识智能问答的文本语义匹配方法,该方法通过构建并训练由文本嵌入模块、输入编码模块、多粒度交互模块、特征融合模块和预测模块所构成的语义匹配模型,通过捕获更多的语义上下文特征、不同维度间编码信息的联系和文本间的交互信息,以实现文本的智能语义匹配;具体如下:
文本嵌入模块对输入的文本进行嵌入操作,得到文本的字嵌入表示、拼音嵌入表示、部首嵌入表示、词嵌入表示,并将结果传递到输入编码模块;
输入编码模块对文本嵌入模块得到的结果进行编码操作,得到文本的字、词粒度上下文信息以及拼音、部首粒度语义信息;
多粒度交互模块在同一文本内部、在文本间进行编码操作,得到增强后的文本多粒度特征、增强后的文本多粒度交互特征;
特征融合模块对增强后的文本多粒度特征与增强后的文本多粒度交互特征进行特征的聚合与匹配操作,并将所有的匹配向量进行联接得到最终匹配表示向量;
预测模块将最终匹配表示向量映射为0-1区间上的值作为文本匹配相似度,文本匹配相似度与设定的阈值进行比较,判定文本是否匹配。
作为优选,所述文本嵌入模块用于构建字词映射转换表、构建拼音映射转换表、构建部首映射转换表、构建字词向量映射层、构建拼音向量映射层、构建部首向量映射层;
更优地,所述输入编码模块的特征如下:
输入编码模块负责完成字词粒度上下文信息与拼音、部首语义信息的提取工作,具体为:以文本P为例,该模块接收文本P的字嵌入表示、拼音嵌入表示、部首嵌入表示、词嵌入表示首先通过双向长短时记忆网络BiLSTM处理得到文本P的字、拼音、部首、词粒度上下文信息,记为Pc、Pp、Pr和Pw;其中,对于文本P的拼音、部首粒度上下文信息,进一步通过全连接层进行升维操作,使其维数和文本P的字、词粒度上下文信息相同,得到文本P的拼音粒度语义信息和其部首粒度语义信息,记为
Figure BDA0003577118570000021
Figure BDA0003577118570000022
具体公式如下:
Figure BDA0003577118570000023
Figure BDA0003577118570000024
Figure BDA0003577118570000025
Figure BDA0003577118570000031
其中,公式(1)表示使用双向长短期记忆网络BiLSTM对字嵌入进行编码,其中,Pc表示字粒度上下文信息,
Figure BDA0003577118570000032
表示txt P_char_embed,其维度为300,ic表示第i个位置的字向量表示在文本中的相对位置;公式(2)表示使用双向长短期记忆网络BiLSTM对词嵌入进行编码,Pw表示词粒度上下文信息,
Figure BDA0003577118570000033
表示txt P_word_embed,其维度为300,iw表示第i个位置的词向量表示在文本中的相对位置;公式(3)表示先使用双向长短期记忆网络BiLSTM对拼音嵌入进行编码,得到拼音粒度上下文信息,之后通过全连接层得到拼音粒度语义信息,
Figure BDA0003577118570000034
表示txt P_pinyin_embed,其维度为70,ip表示第i个位置的拼音向量表示在文本中的相对位置,Pp表示拼音粒度上下文信息,
Figure BDA0003577118570000035
表示第i个位置拼音粒度语义信息,N表示拼音、部首粒度语义信息的序列长度,Pi p表示第i个位置拼音粒度上下文信息,
Figure BDA0003577118570000036
表示拼音粒度语义信息,Wp、bp分别表示全连接层中拼音粒度上下文信息的权重和偏置,这两个都是可训练参数;公式(4)表示先使用双向长短期记忆网络BiLSTM对部首嵌入进行编码,得到部首粒度上下文信息,之后通过全连接层得到部首粒度语义信息,公式(4)与公式(3)中符号含义基本一致,区别在于,
Figure BDA0003577118570000037
表示txt P_radical_embed,其维度为70,ir表示第i个位置的部首向量表示在文本中的相对位置,Pr表示部首粒度上下文信息,
Figure BDA0003577118570000038
表示第i个位置部首粒度语义信息,Pi r表示第i个位置部首粒度上下文信息,
Figure BDA0003577118570000039
表示部首粒度语义信息,Wr、br分别表示全连接层中部首粒度上下文信息的权重和偏置;
同理,对文本Q进行与文本P类似的处理,可得字、词粒度上下文信息以及拼音、部首粒度语义信息,记为Qc、Qw
Figure BDA00035771185700000310
更优地,所述多粒度交互模块的构建过程具体如下:
同一文本内部使用两层编码结构学习增强后的文本多粒度特征:首先为方便后续的说明,先进行如下定义,定义软对齐注意力记为SA,如公式(5)所示:
Figure BDA00035771185700000311
以文本P为例,假设Xi表示文本P第i个位置的字嵌入表示,yj表示文本P第j个位置的词嵌入表示,那么根据公式(5),Sij表示文本P第i个位置的字嵌入表示与第j个位置的词嵌入表示之间的注意力权重,
Figure BDA0003577118570000041
表示对注意力权重做softmax操作,
Figure BDA0003577118570000042
表示文本P第i个位置的字嵌入表示可由文本P所有位置的词嵌入表示加权求和进行重新表示,M表示文本P字、词嵌入表示的序列长度,
Figure BDA0003577118570000043
表示文本P第j个位置的词嵌入表示可由文本P的所有位置的字嵌入表示加权求和进行重新表示;
后续说明中,使用SA符号代表公式(5)的操作;
以文本P为例,描述同一文本内部使用两层编码结构学习增强后的文本多粒度特征的具体步骤:
第一层编码结构将公式(1)表示的文本P的字粒度上下文信息与公式(3)表示的文本P的拼音粒度语义信息使用软对齐注意力得到文本P的浅层字音、音字特征,记为
Figure BDA0003577118570000044
如公式(6)所示:
Figure BDA0003577118570000045
公式(1)表示的文本P的字粒度上下文信息与公式(4)表示的文本P的部首粒度语义信息使用软对齐注意力得到文本P的浅层字部、部字特征,记为
Figure BDA0003577118570000046
如公式(7)所示:
Figure BDA0003577118570000047
公式(2)表示的文本P的词粒度上下文信息与公式(3)表示的文本P的拼音粒度语义信息使用软对齐注意力得到文本P的浅层词音、音词特征,记为
Figure BDA0003577118570000048
如公式(8)所示:
Figure BDA0003577118570000049
公式(2)表示的文本P的词粒度上下文信息与公式(4)表示的文本P的部首粒度语义信息使用软对齐注意力得到文本P的浅层词部、部词特征,记为
Figure BDA00035771185700000410
如公式(9)所示:
Figure BDA00035771185700000411
同理,对文本Q进行与文本P类似的处理,可得文本Q的浅层字音、词音、字部、词部、音字、音词、部字、部词特征,分别记为
Figure BDA00035771185700000412
Figure BDA00035771185700000413
第二层编码结构将公式(6)表示的文本P的浅层字音与公式(8)表示的文本P的浅层词音特征使用软对齐注意力得到文本P的深层字音、词音特征,记为
Figure BDA00035771185700000414
Figure BDA00035771185700000415
如公式(10)所示:
Figure BDA00035771185700000416
将公式(7)表示的文本P的浅层字部与公式(9)表示的文本P的浅层词部特征使用软对齐注意力得到文本P的深层字部、词部特征,记为
Figure BDA0003577118570000051
如公式(11)所示:
Figure BDA0003577118570000052
将公式(6)表示的文本P的浅层音字与公式(8)表示的文本P的浅层音词特征使用软对齐注意力得到文本P的深层音字、音词特征,记为
Figure BDA0003577118570000053
如公式(12)所示:
Figure BDA0003577118570000054
将公式(7)表示的文本P的浅层部字与公式(9)表示的文本P的浅层部词特征使用软对齐注意力得到文本P的深层部字、部词特征,记为
Figure BDA0003577118570000055
如公式(13)所示:
Figure BDA0003577118570000056
同理,对文本Q进行与文本P类似的处理,可得文本Q的深层字音、词音、字部、词部、音字、音词、部字、部词特征,分别记为
Figure BDA0003577118570000057
Figure BDA0003577118570000058
为了增强文本的语义表示,利用残差机制,把公式(1)表示的文本P的字粒度上下文信息、公式(6)表示的文本P的浅层字音特征、公式(7)表示的文本P的浅层字部特征、公式(10)表示的文本P的深层字音特征以及公式(11)表示的文本P的深层字部特征合并得到增强后文本P的字粒度特征,记为Pc',如公式(14)所示;把公式(2)表示的文本P的词粒度上下文信息、公式(8)表示的文本P的浅层词音特征、公式(9)表示的文本P的浅层词部特征、公式(10)表示的文本P的深层词音特征以及公式(11)表示的文本P的深层词部特征合并得到增强后文本P的词粒度特征,记为Pw',如公式(15)所示;把公式(3)表示的文本P的拼音粒度语义信息、公式(6)表示的文本P的浅层音字特征、公式(8)表示的文本P的浅层音词特征、公式(12)表示的文本P的深层音字特征以及公式(12)表示的文本P的深层音词特征合并得到增强后文本P的拼音粒度特征,记为
Figure BDA0003577118570000059
如公式(16)所示;把公式(4)表示的文本P的部首粒度语义信息、公式(7)表示的文本P的浅层部字特征、公式(9)表示的文本P的浅层部词特征、公式(13)表示的文本P的深层部字特征以及公式(13)表示的文本P的深层部词特征合并得到增强后文本P的部首粒度特征,记为
Figure BDA00035771185700000510
如公式(17)所示;
Figure BDA00035771185700000511
Figure BDA00035771185700000512
Figure BDA00035771185700000513
Figure BDA00035771185700000514
同理,对文本Q进行与文本P类似的处理,可得增强后文本Q的字、词、拼音、部首粒度特征,分别记为Qc'、Qw'
Figure BDA0003577118570000061
在文本间使用多层编码结构学习增强后的文本多粒度交互特征:将公式(6)表示的文本P的浅层字音特征、公式(6)表示文本P的浅层音字特征、公式(7)表示文本P的浅层字部特征、公式(7)表示文本P的浅层部字特征合并得到文本P的浅层字粒度特征,记为
Figure BDA0003577118570000062
如公式(18)所示;将公式(8)表示的文本P的浅层词音特征、公式(8)表示的文本P的浅层音词特征、公式(9)表示的文本P的浅层词部特征、公式(9)表示的文本P的浅层部词特征合并得到文本P的浅层词粒度特征,记为
Figure BDA0003577118570000063
如公式(19)所示;
Figure BDA0003577118570000064
Figure BDA0003577118570000065
同理,对文本Q进行与文本P类似的处理,可得文本Q的浅层字、词粒度特征,记为
Figure BDA0003577118570000066
将公式(18)表示的文本P的浅层字粒度特征与文本Q的浅层字粒度特征使用软对齐注意力,分别得到交互后文本P的字粒度特征,记为
Figure BDA0003577118570000067
和交互后文本Q的字粒度特征,记为
Figure BDA0003577118570000068
如公式(20)所示:
Figure BDA0003577118570000069
同理,公式(19)表示的文本P的浅层词粒度特征和文本Q的浅层词粒度特征使用软对齐注意力得到交互后文本P的词粒度特征,记为
Figure BDA00035771185700000610
和交互后文本Q的词粒度特征,记为
Figure BDA00035771185700000611
如公式(21)所示:
Figure BDA00035771185700000612
为了增强文本间的语义表示,将公式(18)表示的文本P的浅层字粒度特征与公式(20)表示的交互后文本P的字粒度特征联接得到增强后文本P的字粒度交互特征,记为
Figure BDA00035771185700000613
如公式(22)所示;将公式(19)表示的文本P的浅层词粒度特征与公式(21)表示的交互后文本P的词粒度特征联接得到增强后文本P的词粒度交互特征,记为
Figure BDA00035771185700000614
如公式(23)所示;
Figure BDA00035771185700000615
Figure BDA00035771185700000616
同理,对文本Q进行与文本P类似的处理,可得增强后文本Q的字、词粒度交互特征,记为
Figure BDA00035771185700000617
更优地,所述特征融合模块的构建过程具体如下:
首先为方便后续的说明,先进行如下定义,定义自对齐注意力记为IA,如公式(24)所示:
Figure BDA0003577118570000071
以文本P为例,假设Xi表示文本P第i个位置的字粒度嵌入表示,Xj表示文本P第j个位置的字粒度嵌入表示,那么Sij表示文本P第i个位置字粒度嵌入表示与第j个位置字粒度嵌入表示的注意力权重,
Figure BDA0003577118570000072
表示对注意力权重做softmax操作,可以理解为两者的关联强度,X'i表示文本P第i个位置的字粒度嵌入表示与其他位置的字粒度嵌入表示之间的交互特征,L表示文本P字粒度嵌入表示的序列长度,X”i表示文本P第i位置字的字粒度嵌入表示与交互特征之和;
后续说明中,使用IA符号代表公式(24)的操作;
在特征聚合层,对于同一文本内部来说,将公式(14)表示的增强后文本P的字粒度特征、公式(15)表示的增强后文本P的词粒度特征、公式(16)表示的增强后文本P的拼音粒度特征、公式(17)表示的增强后文本P的部首粒度特征分别使用自对齐注意力得到对齐后文本P的字、词、拼音、部首粒度特征,分别记为Pc”、Pw”
Figure BDA0003577118570000073
如公式(25)所示:
Figure BDA0003577118570000074
随后将公式(25)表示的对齐后文本P的字、词、拼音、部首粒度特征经过最大池化和平均池化操作,分别得到池化后文本P的字、词、拼音、部首粒度特征,记为
Figure BDA0003577118570000075
如公式(26)所示:
Figure BDA0003577118570000076
其中max表示最大池化操作,mean表示平均池化操作,可以过滤掉噪音信息或不重要信息进一步提取关键的语义信息,dim表示张量的维度;
同理,对文本Q进行与文本P类似的处理,可得对齐后文本Q的字、词、拼音、部首粒度特征以及池化后文本Q的字、词、拼音、部首粒度,分别记为Qc”、Qw”
Figure BDA0003577118570000077
对于文本间的操作和对同一文本内部的操作基本相同,将公式(22)表示的增强后文本P的字粒度交互特征与公式(23)表示的增强后文本P的词粒度交互特征使用自对齐注意力得到对齐后文本P的字、词粒度交互特征,记为
Figure BDA0003577118570000078
如公式(27)所示:
Figure BDA0003577118570000081
随后将公式(27)表示的对齐后文本P的字、词粒度交互特征经过最大池化和平均池化操作得到池化后文本P的字、词粒度交互特征,记为
Figure BDA0003577118570000082
如公式(28)所示:
Figure BDA0003577118570000083
其中max表示最大池化操作,mean表示平均池化操作,可以过滤掉噪音信息或不重要信息进一步提取关键的语义信息,dim表示张量的维度;
同理,对文本Q进行与文本P类似的处理,可得对齐后文本Q的字、词粒度交互特征以及池化后文本Q的字、词粒度交互特征,记为
Figure BDA0003577118570000084
Figure BDA0003577118570000085
使用三种匹配方法对特征进行匹配,之后将所有的匹配向量进行联接:首先为方便下文使用,先进行如下定义,定义匹配函数记为match,如公式(29)所示:
Figure BDA0003577118570000086
P、Q假设为文本P和文本Q的两个向量,ab表示两向量对应位置相减之后绝对值运算,mu表示两向量对应位置相乘运算,sub表示两向量对应位置相减运算;
后续说明中,match符号代表公式(29)的操作;
将公式(26)表示的池化后文本P的字、词、拼音、部首粒度特征以及池化后文本Q的字、词、拼音、部首粒度特征分别进行匹配得到对应的匹配向量分别表示为M1、M2、M3、M4,将公式(28)表示的池化后文本P的字、词粒度交互特征以及池化后文本Q的字、词粒度交互特征分别进行匹配得到对应的匹配向量分别表示为M5、M6,如公式(30)所示:
Figure BDA0003577118570000087
最后将公式(30)表示的所有的匹配向量联接生成最终匹配表示向量,如公式(31)所示:
F=[M1;M2;M3;M4;M5;M6] (31)
公式(31)表示将各个匹配向量进行联接,生成最终匹配表示向量。
更优地,所述预测模块构建具体如下:
在该模块中,最终匹配表示向量经过一层维度为1、激活函数为sigmoid的全连接网络处理,从而得到一个处于[0,1]之间的匹配度数值,记为ypred,最终通过与设立的阈值0.5进行比较,从而判断文本的语义是否匹配;即ypred≥0.5时,预测文本的语义是匹配的,否则,不匹配;
更优地,所述文本语义匹配知识库构建具体如下:
收集数据:下载网络上已经公开的文本语义匹配数据集或人工构建数据集,将其作为构建文本语义匹配知识库的原始数据;
预处理原始数据:预处理用于构建文本语义匹配知识库的原始数据,对其中的每个文本均进行断字操作、分词操作,转换拼音操作,提取字部首操作,得到文本语义匹配断字处理知识库、分词处理知识库、拼音处理知识库、部首处理知识库;
汇总文本知识库:汇总文本语义匹配断字处理知识库、文本语义匹配分词处理知识库、文本语义匹配拼音处理知识库和文本语义匹配部首处理知识库构建文本语义匹配知识库;
所述文本语义匹配模型通过使用训练数据集进行训练而得到,训练数据集的构建过程如下:
构建训练正例:将两个文本语义一致的文本构建为正例数据;
构建训练负例:对于所获得的每个正例文本,选中其包含的某一个文本,随机选择与其不匹配的某个文本进行组合,将这两个语义不一致的文本,构建为负例数据;
构建训练数据集:将所获得的全部的正例文本数据和负例文本数据,合并在一起,并打乱其顺序,构建最终的训练数据集;
所述文本语义匹配模型构建完成后通过训练数据集进行文本语义匹配模型的训练与优化,具体如下:
构建损失函数:由预测模块构建过程可知,ypred为经过文本语义匹配模型处理后得到的匹配度计算数值;而ytrue是两个文本语义是否匹配的真实标签,其取值仅限于0或1,数据来源于训练数据集中,采用交叉熵作为损失函数;
构建优化函数:模型经过对多种优化函数进行测试,最终选择使用Adam优化函数作为本模型的优化函数,其超参数均选择Keras中的默认值设置。
一种面向消防安全知识智能问答的文本语义匹配装置,该装置包括,文本语义匹配知识库构建单元、训练数据集生成单元、文本语义匹配模型构建单元、文本语义匹配模型训练单元。汇总文本知识库每个单元的具体功能如下所述:
文本语义匹配知识库构建单元用于获得大量的文本数据,随后对文本数据进行预处理,从而获得符合训练要求的文本语义匹配知识库。训练数据集生成单元,对于文本语义匹配知识库中的数据,若其语义一致,则该文本用于构建训练正例,反之,则用于构建训练负例。将所有的正例数据和负例数据进行混合,得到训练数据集。文本语义匹配模型构建单元,用于构建字词映射转换表、构建拼音映射转换表、构建部首映射转换表、构建输入模块、构建字词向量映射层、构建拼音向量映射层、构建部首向量映射层、构建输入编码模块、构建多粒度交互模块、构建特征融合模块、构建预测模块。文本语义匹配模型训练单元,构建在训练损失函数和优化函数,完成模型的训练。
一种存储介质,其中存储有多条指令,所述指令有处理器加载,执行上述的面向消防安全知识智能问答的文本语义匹配方法的步骤。
一种电子设备,所述电子设备包括:
上述的存储介质;以及
处理器,用于执行所述存储介质中的指令。
本发明的面向消防安全知识智能问答的文本语义匹配方法和装置具有以下优点:
(一)捕获更多的语义上下文特征、不同维度间编码信息的联系和文本间的交互信息,有效提高文本语义匹配的准确度;
(二)本发明能够利用多粒度交互模块对同一文本内部与文本间进行编码操作,得到同一文本内部与文本间多粒度多层次语义特征,有助于模型捕捉深层语义信息,有效提高句子语义表征的全面性和准确性;
(三)本发明提出面向消防安全知识智能问答的文本语义匹配方法可以捕捉不同粒度不同层次上的语义信息,有效提高文本匹配的准确性;
(四)本发明通过使用文本嵌入模块、输入编码模块、多粒度交互模块、特征融合模块和预测模块组成文本语义匹配模型,有效改善文本匹配模型的效果;
(五)本发明能够利用多粒度交互模块,捕捉文本间的多粒度交互信息,达到有效改善语义匹配效果的目的;
(六)本发明从多层次多粒度对本文的语义信息进行抽取,从而得到同一文本内部多粒度特征与文本间多粒度交互特征,然后利用多种匹配机制进行相应匹配,有效提高模型预测文本匹配度的准确率。
附图说明:
下面结合附图对本发明进一步说明。
图1为面向消防安全知识智能问答的文本语义匹配方法的流程图
图2为构建文本语义匹配知识库的流程图
图3为构建训练数据集的流程图
图4为构建文本语义匹配模型的流程图
图5为训练文本语义匹配模型的流程图
图6为输入编码模块模型的流程图
图7为多粒度交互模块对同一文本内的语义特征进行学习的多层编码结构示意图
图8为多粒度交互模块对文本间的语义特征进行学习的多层编码结构示意图
图9为特征融合模块的流程图
具体实施方式
参照说明书附图和具体实施方式对本发明的一种面向消防安全知识智能问答的文本语义匹配方法做以下详细地说明。
实施例1:
本发明的面向消防安全知识智能问答的文本语义匹配方法,该发明主要框架结构包括文本嵌入模块,输入编码模块、多粒度交互模块、特征融合模块和预测模块。其中,文本嵌入模块对输入的文本进行嵌入操作,得到字嵌入表示、拼音嵌入表示、部首嵌入表示、词嵌入表示,并将结果传递到输入编码模块。输入编码模块对字嵌入表示、拼音嵌入表示、部首嵌入表示、词嵌入表示通过BiLSTM进行编码得到字、词粒度上下文信息,对拼音、部首嵌入表通过全连接层得到拼音、部首粒度语义信息。多粒度交互模块分为两部分,第一部分为在同一文本内部使用两层编码结构学习增强后的文本多粒度特征,第二部分为在文本间使用多层编码结构学习增强后的文本多粒度交互特征。第一部分如附图7所示,以文本P为例,第一层编码结构将文本P的字粒度上下文信息和其部首粒度语义信息通过软对齐得到文本P的浅层字部特征和其浅层部字特征,文本P的字粒度上下文信息和其拼音粒度语义信息通过软对齐得到文本P的浅层字音特征和其浅层音字特征;文本P的词粒度上下文信息和其部首粒度语义信息通过软对齐得到文本P的浅层词部特征和其浅层部词特征,文本P的词粒度上下文信息和其拼音粒度语义信息通过软对齐得到文本P的浅层词音特征和其浅层音词特征;第二层编码结构将文本P的浅层字部与其浅层词部特征软对齐得到文本P的深层字部和其深层词部特征,将文本P的浅层部字与其浅层部词特征进行软对齐得到文本P的深层部字和其深层部词特征,文本P的浅层字音与其浅层词音特征进行软对齐得到文本P的深层字音和其深层词音特征,将文本P的浅层音字与其浅层音词特征进行软对齐得到文本P的深层音字和其深层音词特征;为了进一步增强文本的语义表示,把文本P的深、浅层字部及其深、浅层字音特征与其字粒度上下文信息合并得到增强后文本P的字粒度特征,把文本P的深、浅层词部及其深、浅层词音特征与其词粒度上下文信息合并得到增强后文本P的词粒度特征,把文本P的深、浅层音字及其深、浅层音词特征与其拼音粒度语义信息合并得到增强后文本P的拼音粒度特征,把文本P的深、浅层部字及其深、浅层部词特征与其部首粒度语义信息合并得到增强后文本P的部首粒度特征;第二部分如附图8所示,将文本P的浅层字音、音字、字部、部字特征合并得到文本P的浅层字粒度特征,对文本P的浅层词音、音词、词部、部词特征合并得到文本P的浅层词粒度特征,对文本Q进行相同的操作分别得到文本Q的浅层字粒度特征和文本Q的浅层词粒度特征;之后,将文本P的浅层字粒度特征与文本Q的浅层字粒度特征进行软对齐,分别得到交互后文本P的字粒度特征和交互后文本Q的字粒度特征,同理,文本P的浅层词粒度特征和文本Q的浅层词粒度特征软对齐得到交互后文本P的词粒度特征和交互后文本Q的词粒度特征;将交互后文本P的字粒度特征和文本P的浅层字粒度特征联接得到增强后文本P的字粒度交互特征,将交互后文本P的词粒度特征与文本P的浅层词粒度特征联接得到增强后文本P的词粒度交互特征,同理对于文本Q,得到增强后文本Q的字粒度交互特征和增强后文本Q的词粒度交互特征。特征融合模块,如图9所示,对增强后文本P的字、词、拼音、部首粒度特征以及增强后文本Q的字、拼音、部首粒度特征,利用自对齐处理分别得到对齐后文本P的字、词、拼音、部首粒度特征以及对齐后文本Q的字、词、拼音、部首粒度特征,随后经过最大池化和平均池化分别得到池化后文本P的字、词、拼音、部首粒度特征以及池化后文本Q的字、词、拼音、部首粒度特征;对增强后文本P的字、词粒度交互特征以及增强后文本Q的字、词粒度交互特征,利用自对齐处理分别得到对齐后文本P的字、词粒度交互特征以及对齐后文本Q的字、词粒度交互特征,随后经过最大池化和平均池化分别得到池化后文本P的字、词粒度交互特征以及池化后文本Q的字、词粒度交互特征;将池化后文本P的字、词、拼音、部首粒度特征以及池化后文本Q的字、词、拼音、部首粒度特征分别进行相应的匹配得到对应的匹配向量,将池化后文本P的字、词粒度交互特征以及池化后文本Q的字、词粒度交互特征分别进行相应匹配得到对应的匹配向量;最后将所有的匹配向量联接得到最终匹配表示向量输入到预测模块。预测模块,所得到的最终匹配表示向量将作为本模块的输入,以此判断文本的语义是否匹配
实施例2:
本发明的整体步骤流程如附图1所示,具体步骤如下:
S1、构建文本语义匹配知识库
构建文本语义匹配知识库的流程如附图2所示,具体步骤如下所述:
S101、收集数据:下载网络上已经公开的文本语义匹配数据集或人工构建数据集,将其作为构建文本语义匹配知识库的原始数据。
举例说明:网络上有许多已公开的消防安全知识问答库。本发明收集这些数据,将其下载下来,从而获得用于构建文本语义匹配知识库的原始数据,其中的文本示例,表示如下:
txt P 烟头为什么容易引起火灾?
txt Q 烟蒂是如何引起火灾的?
S102、预处理原始数据:预处理用于构建文本语义匹配知识库的原始数据,对其中的每个文本均进行断字操作、分词操作,转换拼音操作,提取字部首操作,得到文本语义匹配断字处理知识库、分词处理知识库、拼音处理知识库、部首处理知识库。
以S101中展示的txt P为例,对其进行断字操作处理后得到“烟头为什么容易引起火灾?”;使用Jieba分词工具对其进行分词操作处理后得到“烟头为什么容易引起火灾?”;使用pinyin工具包对其进行每个字转为拼音得到“yan tou wei shen me rong yi yin qihuo zai?”;使用radical工具包对其进行提取字部首得到“火头为亻丿宀日弓走火火?”。
S103、汇总文本知识库:汇总文本语义匹配断字处理知识库、文本语义匹配分词处理知识库、文本语义匹配拼音处理知识库和文本语义匹配部首处理知识库构建文本语义匹配知识库。
将S102中获得的文本语义匹配断字处理知识库、文本语义匹配分词处理知识库、文本语义匹配拼音处理知识库和文本语义匹配部首处理知识库汇总到同一文件夹下,从而得到文本语义匹配知识库,其流程如附图2所示;这里需要注意的是,经过断字操作处理后的数据、经过分词操作处理后的数据、经过拼音操作处理后的数据和经过部首操作处理后的数据并不会合并到同一文件中,即,文本语义匹配知识库实际上包含四个独立的子知识库,每一个预处理后的文本均保留了其原始文本的ID信息。
S2、构建文本语义匹配模型所需的训练数据集:构建文本语义匹配模型所需的训练数据集的流程如附图3所示,对于文本语义匹配知识库中的每一个文本,若其语义一致,则该文本可以用于构建训练正例;若其语义不一致,则该文本可以用于构建训练负例;将一定数量的正例数据与负例数据进行混合,从而构建模型训练数据集。
S201、构建训练正例数据:将两个文本语义一致的文本构建为正例数据,构建的正例数据可形式化为:(txt P_char,txt Q_char,txt P_word,txt Q_word,txt P_pinyin,txt Q_pinyin,txt P_radical,txt Q_radical,1)。
其中,txt P_char、txt Q_char分别指代文本语义匹配断字处理知识库中的文本P、文本Q,txt P_word、txt Q_word分别指代文本语义匹配分词处理知识库中的文本P、文本Q,txt P_pinyin、txt Q_pinyin分别指代文本语义匹配拼音处理知识库中的文本P、文本Q,txt P_radical、txt Q_radical分别指代文本语义匹配部首处理知识库中的文本P、文本Q,而这里的1则表示这两个文本的语义相匹配,是正例。
举例说明:对S101中展示的txt P和txt Q,经过断字操作、分词操作,转换拼音操作,提取汉字部首操作:
(“烟头为什么容易引起火灾?”,“烟蒂是如何引起火灾的?”,“烟头为什么容易引起火灾?”,“烟蒂是如何引起火灾的?”,“yan tou wei shen me rong yi yin qi huozai?”,“yan di shi ru he yin qi huo zai de?”,“火头为亻丿宀日弓走火火?”,“火艹日女亻弓走火火白?”,1)。
S202、构建训练负例数据:对于步骤S201所获得的每个正例文本,选中其包含的某一个文本,随机选择与其不匹配的某个文本进行组合;将这两个语义不一致的文本,构建为负例数据。采用与步骤S201类似的操作,负例数据可形式化为:(txt P_char,txt Q_char,txt P_word,txt Q_word,txt P_pinyin,txt Q_pinyin,txt P_radical,txt Q_radical,0)。各符号意义与步骤S201中相同,0表示这两个文本的语义不匹配,是负例。
S203、构建训练数据集:将经过步骤S201和步骤S202操作后所获得的全部的正例文本数据和负例文本数据,合并在一起,并打乱其顺序,构建最终的训练数据集;无论正例数据还是负例数据,它们都包含九个维度,即txt P_char,txt Q_char,txt P_pinyin,txtQ_pinyin,txt P_radical,txt Q_radical,txt P_word,txt Q_word,0或1。
S3、构建文本语义匹配模型:构建文本语义匹配模型的流程如附图4所示,主要操作为构建字词映射转换表、构建拼音映射转换表、构建部首映射转换表、构建输入编码模块、构建字词向量映射层、构建拼音向量映射层、构建部首向量映射层、构建多粒度交互模块、构建特征融合模块、构建预测模块。其中,构建字词映射转换表、构建拼音映射转换表、构建部首映射转换表、构建字词向量映射层、构建拼音向量映射层、构建部首向量映射层组成文本嵌入模块;具体步骤如下所述:
S301、构建字词映射转换表:字词表是通过步骤S102处理后得到的文本语义匹配断字处理知识库和分词处理知识库来构建的。字词表构建完成后,表中每个字词均被映射为唯一的数字标识,其映射规则为:以数字1为起始,随后按照每个字词被录入字词表的顺序依次递增排序,从而形成本发明所需的字词映射转换表。
举例说明:以步骤S102处理后的内容,“烟头为什么容易引起火灾?”,构建字词表及字词映射转换表如下:
Figure BDA0003577118570000141
其后,本发明使用Word2Vec训练字词向量模型,得到各字词的字词向量矩阵char_word_embedding_matrix。
举例说明:在Keras中,对于上面描述的代码实现如下所示:
Figure BDA0003577118570000142
Figure BDA0003577118570000152
其中,w2v_corpus_char_word为断字处理训练语料和分词处理训练语料,即文本语义匹配断字和分词处理知识库中的所有数据;char_word_EMBDIM为字词的向量维度,本模型设置char_word_EMBDIM为400,char_word_set为字词表。
S302、构建拼音映射转换表:拼音表是通过步骤S102处理后得到的文本语义匹配拼音处理知识库来构建的。拼音表构建完成后,表中每个拼音均被映射为唯一的数字标识,其映射规则为:以数字1为起始,随后按照每个拼音被录入拼音表的顺序依次递增排序,从而形成本发明所需的拼音映射转换表。
举例说明:以步骤S102处理后的内容,“yan tou wei shen me rong yi yin qihuo zai?”,构建拼音表及拼音映射转换表如下:
拼音 yan tou wei shen me rong yi yin qi huo zai
映射 1 2 3 4 5 6 7 8 9 10 11 12
其后,本发明使用Word2Vec训练拼音向量模型,得到各字的拼音向量矩阵pinyin_embedding_matrix。
举例说明:在Keras中,对于上面描述的代码实现,与S301中举例说明基本一致,只是将各参数由char_word改为pinyin相关的。鉴于篇幅限定,在此不再赘述。
其中,S301中举例中w2v_corpus_char_word更换为w2v_corpus_piniyin,其为拼音处理训练语料,即文本语义匹配拼音处理知识库中的所有数据;拼音向量维度为pinyin_EMBDIM,本模型设置pinyin_EMBDIM为70;char_word_set更换为pinyin_set,其为拼音表。
S303、构建部首映射转换表:部首表是通过步骤S102处理后得到的文本语义匹配部首处理知识库来构建的。部首表构建完成后,表中每个部首均被映射为唯一的数字标识,其映射规则为:以数字1为起始,随后按照每个部首被录入部首表的顺序依次递增排序,从而形成本发明所需的部首映射转换表。
举例说明:
Figure BDA0003577118570000151
Figure BDA0003577118570000161
其后,本发明使用Word2Vec训练部首向量模型,得到各字的部首向量矩阵radical_embedding_matrix。
举例说明:在Keras中,对于上面描述的代码实现,与S301中举例说明基本一致,只是将各参数由char改为radical相关的。鉴于篇幅限定,在此不再赘述。
其中,S301中举例中w2v_corpus_char_word更换为w2v_corpus_radical,其为部首处理训练语料,即文本语义匹配部首处理知识库中的所有数据;部首维度为radical_EMBODIM,本模型设置radical_EMBODIM为70;char_word_set更换为radical_set,其为部首表。
S304、构建输入模块:输入模块中包括四个输入。对于训练数据集中的每一个文本或待预测的文本,利用S1和S2中的相应模块对其进行预处理,分别获取txt P_char、txt Q_char、txt P_word、txt Q_word、txt P_pinyin、txt Q_pinyin、txt P_radical、txt Q_radical将其形式化为:(txt P_char,txt Q_char,txt P_word,txt Q_word,txt P_pinyin,txt Q_pinyin,txt P_radical,txt Q_radical)对于输入文本中的每个字、词、拼音、部首而言,本发明都按照在步骤S301、步骤S302和步骤S303中构建完成的字词映射转换表、拼音映射转换表和部首映射转换表将其转化为相应的数字标识。
举例说明:我们使用步骤S201中展示的文本作为样例,以此组成一条输入数据。其结果如下所示:
(“烟头为什么容易引起火灾?”,“烟蒂是如何引起火灾的?”,“烟头为什么容易引起火灾?”,“烟蒂是如何引起火灾的?”,“yan tou wei shen me rong yi yin qi huozai?”,“yan di shi ru he yin qi huo zai de?”,“火头为亻丿宀日弓走火火?”,“火艹日女亻弓走火火白?”,1)
每条输入数据包含8个文本。针对前两个文本,根据步骤S301中的字词映射转换表,将其转换为数值表示;针对接下来的两个文本,根据步骤S301中的字词映射转换表,将其转换为数值表示(例如假定出现在文本2中但没有出现在文本1中的映射关系为:“蒂”:18,“是”19,“如”:20,“何”:21,“的”:22,“di”:23,“shi”:24,“ru”:25,“he”:26,“de”:27,“女”:28,“白”:29)。输入数据的8个文本,合并表示结果如下:
(“1,2,3,4,5,6,7,8,9,10,11,12”,“1,18,19,20,21,8,9,10,11,22,12”,“1,2,3,4,5,6,7,8,9,10,11,12”,“1,23,24,25,26,8,9,10,11,27,12”,“1,2,3,4,5,6,7,8,9,10,11,12”,“1,23,24,25,26,8,9,10,11,12”,“1,2,3,4,5,6,7,8,9,10,11,12”,“1,6,7,28,4,8,9,10,11,29,12”)。
S305、构建字词向量映射层:通过加载构建字词映射转换表步骤中训练所得的字词向量矩阵权重来初始化当前层的权重参数;针对输入文本txt P_char、txt Q_char和txtP_word、txt Q_word,得到其相应文本向量txt P_char_embed、txt Q_char_embed、txt P_word_embed、txt Q_word_embed。文本语义匹配断字、分词处理知识库中每一个文本都可以通过字词向量映射的方式,将文本字词信息转化为向量形式,即字嵌入表示、词嵌入表示。
举例说明:在Keras中,对于上面描述的代码实现如下所示:
char_word_embedding_layer=Embedding(char_word_embedding_matrix.shape[0],char_word_emb_dim,weights=[char_word_embedding_matrix],
input_length=input_dim,trainable=False)
其中,char_word_embedding_matrix是构建字词映射转换表步骤中训练所得的字词向量矩阵权重,char_word_embedding_matrix.shape[0]是字词向量矩阵的字词表的大小,char_word_emb_dim是输出的字词向量的维度,input_length是输入序列的长度。相应的文本txt P_char、txt Q_char、txt P_word、txt Q_word,经过Keras的Embedding层处理后得到相应的文本字词向量txt P_char_embed、txt Q_char_embed、txt P_word_embed、txt Q_word_embed。
S306、构建拼音向量映射层:通过加载构建拼音映射转换表步骤中训练所得的拼音向量矩阵权重来初始化当前层的权重参数;针对输入文本txt P_pinyin和txt Q_pinyin,得到其相应文本向量txt P_pinyin_embed、txt Q_pinyin_embed。文本匹配拼音处理知识库中每一个文本都可以通过拼音向量映射的方式,将文本拼音信息转化为向量形式,即拼音嵌入表示。
举例说明:在Keras中,对于上面描述的代码实现,与S305中基本一致,只是将各参数由char_word改为pinyin相关的。鉴于篇幅限定,在此不再赘述。
S307、构建部首向量映射层:通过加载构建部首映射转换表步骤中训练所得的部首向量矩阵权重来初始化当前层的权重参数;针对输入文本txt P_radical和txt Q_radical,得到其相应文本向量txt P_radical_embed、txt Q_radical_embed。文本语义匹配部首处理知识库中每一个文本都可以通过部首向量映射的方式,将文本部首信息转化为向量形式,即部首嵌入表示。
举例说明:在Keras中,对于上面描述的代码实现,与S305中基本一致,只是将各参数由char_word改为radical相关的。鉴于篇幅限定,在此不再赘述。
S308、构建输入编码模块:输入编码模块如附图6所示,以文本P为例,该模块接收文本P的字嵌入表示、拼音嵌入表示、部首嵌入表示、词嵌入表示首先通过双向长短期记忆网络BiLSTM处理得到文本P的字、拼音、部首、词粒度上下文信息,记为Pc、Pp、Pr和Pw;其中,对于文本P的拼音、部首粒度上下文信息,进一步通过全连接层进行升维操作,使其维数和文本P的字、词粒度上下文信息相同,得到文本P的拼音粒度语义信息和其部首粒度语义信息,记为
Figure BDA0003577118570000181
Figure BDA0003577118570000182
具体公式如下:
Figure BDA0003577118570000183
Figure BDA0003577118570000184
Figure BDA0003577118570000185
Figure BDA0003577118570000186
其中,公式(1)表示使用双向长短期记忆网络BiLSTM对字嵌入进行编码,其中,Pc表示字粒度上下文信息,
Figure BDA0003577118570000187
表示txt P_char_embed,其维度为300,ic表示第i个位置的字向量表示在文本中的相对位置;公式(2)表示使用双向长短期记忆网络BiLSTM对词嵌入进行编码,Pw表示词粒度上下文信息,
Figure BDA0003577118570000188
表示txt P_word_embed,其维度为300,iw表示第i个位置的词向量表示在文本中的相对位置;公式(3)表示先使用双向长短期记忆网络BiLSTM对拼音嵌入进行编码,得到拼音粒度上下文信息,之后通过全连接层得到拼音粒度语义信息,
Figure BDA0003577118570000189
表示txt P_pinyin_embed,其维度为70,ip表示第i个位置的拼音向量表示在文本中的相对位置,Pp表示拼音粒度上下文信息,
Figure BDA00035771185700001810
表示第i个位置拼音粒度语义信息,N表示拼音粒度语义信息的序列长度,Pi p表示第i个位置拼音粒度上下文信息,
Figure BDA00035771185700001811
表示拼音粒度语义信息,Wp、bp分别表示全连接层中拼音粒度上下文信息的权重和偏置,这两个都是可训练参数;公式(4)表示先使用双向长短期记忆网络BiLSTM对部首嵌入进行编码,得到部首粒度上下文信息,之后通过全连接层得到部首粒度语义信息,公式(4)与公式(3)中符号含义基本一致,区别在于,
Figure BDA00035771185700001812
表示txt P_radical_embed,其维度为70,ir表示第i个位置的部首向量表示在文本中的相对位置,Pr表示部首粒度上下文信息,
Figure BDA00035771185700001813
表示第i个位置部首粒度语义信息,Pi r表示第i个位置部首粒度上下文信息,
Figure BDA00035771185700001814
表示部首粒度语义信息,Wr、br分别表示全连接层中部首粒度上下文信息的权重和偏置;
同理,对文本Q进行与文本P类似的处理,可得字、词粒度上下文信息以及拼音、部首粒度语义信息,记为Qc、Qw
Figure BDA00035771185700001815
S309、构建多粒度交互模块:多粒度交互模块,以文本P为例,该模块接收文本P的字粒度上下文信息、词粒度上下文信息、拼音粒度语义信息和部首粒度语义信息分别作为输入。主要分为两部分,第一部分为在同一文本内部使用两层编码结构学习增强后的文本多粒度特征,如附图7所示;第二部分为在文本间使用多层编码结构学习增强后的文本多粒度交互特征,如附图8所示。
S30901、同一文本内部使用两层编码结构学习增强后的文本多粒度特征。
首先为方便后续的说明,先进行如下定义,定义软对齐注意力记为SA,如公式(5)所示:
Figure BDA0003577118570000191
以文本P为例,假设Xi表示文本P第i个位置的字嵌入表示,yj表示文本P第j个位置的词嵌入表示,那么根据公式(5),Sij表示文本P第i个位置的字嵌入表示与第j个位置的词嵌入表示之间的注意力权重,
Figure BDA0003577118570000192
表示对注意力权重做softmax操作,
Figure BDA0003577118570000193
表示文本P第i个位置的字嵌入表示可由文本P所有位置的词嵌入表示加权求和进行重新表示,M表示文本P字、词嵌入表示的序列长度,
Figure BDA0003577118570000194
表示文本P第j个位置的词嵌入表示可由文本P的所有位置的字嵌入表示加权求和进行重新表示;
后续说明中,使用SA符号代表公式(5)的操作;
以文本P为例,描述同一文本内部使用两层编码结构学习增强后的文本多粒度特征的具体步骤:
S3090101、第一层编码结构将公式(1)表示的文本P的字粒度上下文信息与公式(3)表示的文本P的拼音粒度语义信息使用软对齐注意力得到文本P的浅层字音、音字特征,记为
Figure BDA0003577118570000195
如公式(6)所示:
Figure BDA0003577118570000196
公式(1)表示的文本P的字粒度上下文信息与公式(4)表示的文本P的部首粒度语义信息使用软对齐注意力得到文本P的浅层字部、部字特征,记为
Figure BDA0003577118570000197
如公式(7)所示:
Figure BDA0003577118570000198
公式(2)表示的文本P的词粒度上下文信息与公式(3)表示的文本P的拼音粒度语义信息使用软对齐注意力得到文本P的浅层词音、音词特征,记为
Figure BDA0003577118570000199
如公式(8)所示:
Figure BDA0003577118570000201
公式(2)表示的文本P的词粒度上下文信息与公式(4)表示的文本P的部首粒度语义信息使用软对齐注意力得到文本P的浅层词部、部词特征,记为
Figure BDA0003577118570000202
如公式(9)所示:
Figure BDA0003577118570000203
同理,对文本Q进行与文本P类似的处理,可得文本Q的浅层字音、词音、字部、词部、音字、音词、部字、部词特征,分别记为
Figure BDA0003577118570000204
Figure BDA0003577118570000205
S3090102、第二层编码结构将公式(6)表示的文本P的浅层字音与公式(8)表示的文本P的浅层词音特征使用软对齐注意力得到文本P的深层字音、词音特征,记为
Figure BDA0003577118570000206
如公式(10)所示:
Figure BDA0003577118570000207
将公式(7)表示的文本P的浅层字部与公式(9)表示的文本P的浅层词部特征使用软对齐注意力得到文本P的深层字部、词部特征,记为
Figure BDA0003577118570000208
如公式(11)所示:
Figure BDA0003577118570000209
将公式(6)表示的文本P的浅层音字与公式(8)表示的文本P的浅层音词特征使用软对齐注意力得到文本P的深层音字、音词特征,记为
Figure BDA00035771185700002010
如公式(12)所示:
Figure BDA00035771185700002011
将公式(7)表示的文本P的浅层部字与公式(9)表示的文本P的浅层部词特征使用软对齐注意力得到文本P的深层部字、部词特征,记为
Figure BDA00035771185700002012
如公式(13)所示:
Figure BDA00035771185700002013
同理,对文本Q进行与文本P类似的处理,可得文本Q的深层字音、词音、字部、词部、音字、音词、部字、部词特征,分别记为
Figure BDA00035771185700002014
Figure BDA00035771185700002015
S3090103、为了增强文本的语义表示,利用残差机制,把公式(1)表示的文本P的字粒度上下文信息、公式(6)表示的文本P的浅层字音特征、公式(7)表示的文本P的浅层字部特征、公式(10)表示的文本P的深层字音特征以及公式(11)表示的文本P的深层字部特征合并得到增强后文本P的字粒度特征,记为Pc',如公式(14)所示;把公式(2)表示的文本P的词粒度上下文信息、公式(8)表示的文本P的浅层词音特征、公式(9)表示的文本P的浅层词部特征、公式(10)表示的文本P的深层词音特征以及公式(11)表示的文本P的深层词部特征合并得到增强后文本P的词粒度特征,记为Pw',如公式(15)所示;把公式(3)表示的文本P的拼音粒度语义信息、公式(6)表示的文本P的浅层音字特征、公式(8)表示的文本P的浅层音词特征、公式(12)表示的文本P的深层音字特征以及公式(12)表示的文本P的深层音词特征合并得到增强后文本P的拼音粒度特征,记为
Figure BDA0003577118570000211
如公式(16)所示;把公式(4)表示的文本P的部首粒度语义信息、公式(7)表示的文本P的浅层部字特征、公式(9)表示的文本P的浅层部词特征、公式(13)表示的文本P的深层部字特征以及公式(13)表示的文本P的深层部词特征合并得到增强后文本P的部首粒度特征,记为
Figure BDA0003577118570000212
如公式(17)所示;
Figure BDA0003577118570000213
Figure BDA0003577118570000214
Figure BDA0003577118570000215
Figure BDA0003577118570000216
同理,对文本Q进行与文本P类似的处理,可得增强后文本Q的字、词、拼音、部首粒度特征,分别记为Qc'、Qw'
Figure BDA0003577118570000217
S30902、在文本间使用多层编码结构学习增强后的文本多粒度交互特征。
S3090201、将公式(6)表示的文本P的浅层字音特征、公式(6)表示文本P的浅层音字特征、公式(7)表示文本P的浅层字部特征、公式(7)表示文本P的浅层部字特征合并得到文本P的浅层字粒度特征,记为
Figure BDA0003577118570000218
如公式(18)所示;将公式(8)表示的文本P的浅层词音特征、公式(8)表示的文本P的浅层音词特征、公式(9)表示的文本P的浅层词部特征、公式(9)表示的文本P的浅层部词特征合并得到文本P的浅层词粒度特征,记为
Figure BDA0003577118570000219
如公式(19)所示;
Figure BDA00035771185700002110
Figure BDA00035771185700002111
同理,对文本Q进行与文本P类似的处理,可得文本Q的浅层字、词粒度特征,记为
Figure BDA00035771185700002112
S3090202、将公式(18)表示的文本P的浅层字粒度特征与文本Q的浅层字粒度特征使用软对齐注意力,分别得到交互后文本P的字粒度特征,记为
Figure BDA00035771185700002113
和交互后文本Q的字粒度特征,记为
Figure BDA00035771185700002114
如公式(20)所示:
Figure BDA00035771185700002115
同理,公式(19)表示的文本P的浅层词粒度特征和文本Q的浅层词粒度特征使用软对齐注意力得到交互后文本P的词粒度特征,记为
Figure BDA00035771185700002116
和交互后文本Q的词粒度特征,记为
Figure BDA00035771185700002117
如公式(21)所示:
Figure BDA00035771185700002118
S30903、为了增强文本间的语义表示,将公式(18)表示的文本P的浅层字粒度特征与公式(20)表示的交互后文本P的字粒度特征联接得到增强后文本P的字粒度交互特征,记为
Figure BDA0003577118570000221
如公式(22)所示;将公式(19)表示的文本P的浅层词粒度特征与公式(21)表示的交互后文本P的词粒度特征联接得到增强后文本P的词粒度交互特征,记为
Figure BDA0003577118570000222
如公式(23)所示;
Figure BDA0003577118570000223
Figure BDA0003577118570000224
同理,对文本Q进行与文本P类似的处理,可得增强后文本Q的字、词粒度交互特征,记为
Figure BDA0003577118570000225
S310、构建特征融合模块:首先为方便后续的说明,先进行如下定义,定义自对齐注意力记为IA,如公式(24)所示:
Figure BDA0003577118570000226
以文本P为例,假设Xi表示文本P第i个位置的字粒度嵌入表示,Xj表示文本P第j个位置的字粒度嵌入表示,那么Sij表示文本P第i个位置字粒度嵌入表示与第j个位置字粒度嵌入表示的注意力权重,
Figure BDA0003577118570000227
表示对注意力权重做softmax操作,可以理解为两者的关联强度,X'i表示文本P第i个位置的字粒度嵌入表示与其他位置的字粒度嵌入表示之间的交互特征,L表示文本P字粒度嵌入表示的序列长度,X”i表示文本P第i位置字的字粒度嵌入表示与交互特征之和;
后续说明中,使用IA符号代表公式(24)的操作;
S31001、在特征聚合层,对于同一文本内部来说,将公式(14)表示的增强后文本P的字粒度特征、公式(15)表示的增强后文本P的词粒度特征、公式(16)表示的增强后文本P的拼音粒度特征、公式(17)表示的增强后文本P的部首粒度特征分别使用自对齐注意力得到对齐后文本P的字、词、拼音、部首粒度特征,分别记为Pc”、Pw”
Figure BDA0003577118570000228
如公式(25)所示:
Figure BDA0003577118570000229
随后将公式(25)表示的对齐后文本P的字、词、拼音、部首粒度特征经过最大池化和平均池化操作,分别得到池化后文本P的字、词、拼音、部首粒度特征,记为
Figure BDA0003577118570000231
如公式(26)所示:
Figure BDA0003577118570000232
其中max表示最大池化操作,mean表示平均池化操作,可以过滤掉噪音信息或不重要信息进一步提取关键的语义信息,dim表示张量的维度;
同理,对文本Q进行与文本P类似的处理,可得对齐后文本Q的字、词、拼音、部首粒度特征以及池化后文本Q的字、词、拼音、部首粒度,分别记为Qc”、Qw”
Figure BDA0003577118570000233
S31002、对于文本间的操作和对同一文本内部的操作基本相同,将公式(22)表示的增强后文本P的字粒度交互特征与公式(23)表示的增强后文本P的词粒度交互特征使用自对齐注意力得到对齐后文本P的字、词粒度交互特征,记为
Figure BDA0003577118570000234
如公式(27)所示:
Figure BDA0003577118570000235
随后将公式(27)表示的对齐后文本P的字、词粒度交互特征经过最大池化和平均池化操作得到池化后文本P的字、词粒度交互特征,记为
Figure BDA0003577118570000236
如公式(28)所示:
Figure BDA0003577118570000237
其中max表示最大池化操作,mean表示平均池化操作,可以过滤掉噪音信息或不重要信息进一步提取关键的语义信息,dim表示张量的维度;
同理,对文本Q进行与文本P类似的处理,可得对齐后文本Q的字、词粒度交互特征以及池化后文本Q的字、词粒度交互特征,记为
Figure BDA0003577118570000238
Figure BDA0003577118570000239
S31003、使用三种匹配方法对特征进行匹配,之后将所有的匹配向量进行联接:首先为方便下文使用,先进行如下定义,定义匹配函数记为match,如公式(29)所示:
Figure BDA00035771185700002310
P、Q假设为文本P和文本Q的两个向量,ab表示两向量对应位置相减之后绝对值运算,mu表示两向量对应位置相乘运算,sub表示两向量对应位置相减运算;
后续说明中,match符号代表公式(29)的操作;
将公式(26)表示的池化后文本P的字、词、拼音、部首粒度特征以及池化后文本Q的字、词、拼音、部首粒度特征分别进行匹配得到对应的匹配向量分别表示为M1、M2、M3、M4,将公式(28)表示的池化后文本P的字、词粒度交互特征以及池化后文本Q的字、词粒度交互特征分别进行匹配得到对应的匹配向量分别表示为M5、M6,如公式(30)所示:
Figure BDA0003577118570000241
最后将公式(30)表示的所有的匹配向量联接生成最终匹配表示向量,如公式(31)所示:
F=[M1;M2;M3;M4;M5;M6] (31)
公式(31)表示将各个匹配向量进行联接,生成最终匹配表示向量。
S311、构建预测模块:所得到的最终匹配表示向量将作为本模块的输入,以此判断文本的语义是否匹配。
在该模块中,最终匹配表示向量经过一层维度为1、激活函数为sigmoid的全连接网络处理,从而得到一个处于[0,1]之间的匹配度数值,记为ypred,最终通过与设立的阈值0.5进行比较,从而判断文本的语义是否匹配;即ypred≥0.5时,预测文本的语义是匹配的,否则,不匹配;
当本发明所提出的面向消防安全知识智能问答的文本语义匹配方法尚未进行训练时,需要进一步执行S4进行训练,以优化模型参数;当该模型训练完毕时,由S311可预测目标文本的语义是否匹配。
S4、训练文本语义匹配模型:将S3构建的文本语义匹配模型在S2所得的训练数据集上进行训练。其流程如图5所示。
S401、构建损失函数:由S311可知,ypred为经过文本语义匹配模型处理后得到的匹配度计算数值;而ytrue是两个文本语义是否匹配的真实标签,其取值仅限于0或1,数据来源于S203的训练数据集。本发明采用了交叉熵作为损失函数,公式如下:
Figure BDA0003577118570000242
举例说明:上面描述的优化函数及其设置在Keras中使用代码表示为:
model.compile(loss="binary_crossentropy",optimizer=’adam’,metrics=['accur acy',precision,recall,f1_score])
S402、构建优化函数:模型经过对多种优化函数进行测试,最终选择使用Adam优化函数作为本模型的优化函数,其超参数均选择Keras中的默认值设置。
举例说明:上面描述的优化函数及其设置在Keras中使用代码表示为:
optim=keras.optimizers.Adam()
本发明所提出的模型在消防安全知识智能问答数据集上,能够取得有效的效果。
实施例3:
如附图6所示,基于实施例2的面向消防安全知识智能问答的文本语义匹配装置,该装置包括,
构建文本语义匹配知识库,构建文本语义匹配模型训练数据集、构建文本语义匹配模型、训练文本语义匹配模型,分别实现向智能客服的基于拼音和部首交互的文本语义匹配方法中步骤S1、S2、S3、S4的功能,每个单元的具体功能如下所述:
构建文本语义匹配知识库,用于获得大量的文本数据,随后对文本数据进行预处理,从而获得符合训练要求的文本语义匹配知识库。
构建文本语义匹配模型训练数据集,对于文本语义匹配知识库中的数据,若其语义一致,则该文本用于构建训练正例,反之,则用于构建训练负例。将所有的正例数据和负例数据进行混合,得到训练数据集。
构建文本语义匹配模型:用于构建字词映射转换表、构建拼音映射转换表、构建部首映射转换表、构建输入模块、构建字词向量映射层、构建拼音向量映射层、构建部首向量映射层、构建输入编码模块、构建多粒度交互模块、构建特征融合模块、构建预测模块。
训练文本语义匹配模型:构建在训练损失函数和优化函数,完成模型的训练。
实施例4:
基于实施例2的储存介质,其中储存有多条指令、指令有处理器加载、执行2的面向消防安全知识智能问答的文本语义匹配方法的步骤。
实施例5:
基于实施例4的电子设备,电子设备包括:实施例4的储存介质:以及处理器,用于执行实施例4的储存介质中的指令。最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种面向消防安全知识智能问答的文本语义匹配方法,其特征在于,该方法通过构建并训练文本嵌入模块、输入编码模块、多粒度交互模块、特征融合模块和预测模块所构成的文本语义匹配模型,实现对文本信息的多层次文本特征提取,同时通过最大池化、平均池化以及多种方法匹配机制获得文本语义的最终匹配表示向量,进而判定文本的匹配程度;具体如下:
文本嵌入模块用于构建字词映射转换表、构建拼音映射转换表、构建部首映射转换表、构建字词向量映射层、构建拼音向量映射层、构建部首向量映射层;
输入编码模块对文本嵌入模块得到的结果进行编码操作,得到文本的字、词粒度上下文信息以及拼音、部首粒度语义信息;
多粒度交互模块在同一文本内部、在文本间进行编码操作,得到增强后的文本多粒度特征、增强后的文本多粒度交互特征;
特征融合模块对增强后的文本多粒度特征与增强后的文本多粒度交互特征进行特征聚合与匹配操作,并将所有的匹配向量进行联接得到最终匹配表示向量;
预测模块将最终匹配表示向量映射为0-1区间上的值作为文本匹配相似度,将其与设定的阈值进行比较,判定文本是否匹配。
2.根据权利要求1所述的面向消防安全知识智能问答的文本语义匹配方法,其特征在于,所述文本嵌入模块用于构建字词映射转换表、构建拼音映射转换表、构建部首映射转换表、构建字词向量映射层、构建拼音向量映射层、构建部首向量映射层。
3.根据权利要求1所述的面向消防安全知识智能问答的文本语义匹配方法,其特征在于,所述输入编码模块的特征如下:
输入编码模块负责完成字词粒度上下文信息与拼音、部首粒度语义信息的提取工作,具体为:以文本P为例,该模块接收文本P的字嵌入表示、拼音嵌入表示、部首嵌入表示、词嵌入表示首先通过双向长短期记忆网络BiLSTM处理得到文本P的字、拼音、部首、词粒度上下文信息,记为Pc、Pp、Pr和Pw;其中,对于文本P的拼音、部首粒度上下文信息,进一步通过全连接层进行升维操作,使其维数和文本P的字、词粒度上下文信息相同,得到文本P的拼音粒度语义信息和其部首粒度语义信息,记为
Figure FDA0003577118560000013
Figure FDA0003577118560000014
具体公式如下:
Figure FDA0003577118560000011
Figure FDA0003577118560000012
Figure FDA0003577118560000021
Figure FDA0003577118560000022
其中,公式(1)表示使用双向长短期记忆网络BiLSTM对字嵌入进行编码,其中,Pc表示字粒度上下文信息,
Figure FDA0003577118560000023
表示txt P_char_embed,其维度为300,ic表示第i个位置的字向量表示在文本中的相对位置;公式(2)表示使用双向长短期记忆网络BiLSTM对词嵌入进行编码,Pw表示词粒度上下文信息,
Figure FDA0003577118560000024
表示txtP_word_embed,其维度为300,iw表示第i个位置的词向量表示在文本中的相对位置;公式(3)表示先使用双向长短期记忆网络BiLSTM对拼音嵌入进行编码,得到拼音粒度上下文信息,之后通过全连接层得到拼音粒度语义信息,
Figure FDA0003577118560000025
表示txt P_pinyin_embed,其维度为70,ip表示第i个位置的拼音向量表示在文本中的相对位置,Pp表示拼音粒度上下文信息,
Figure FDA0003577118560000026
表示第i个位置拼音粒度语义信息,N表示拼音、部首粒度语义信息的序列长度,Pi p表示第i个位置拼音粒度上下文信息,
Figure FDA0003577118560000027
表示拼音粒度语义信息,Wp、bp分别表示全连接层中拼音粒度上下文信息的权重和偏置,这两个都是可训练参数;公式(4)表示先使用双向长短期记忆网络BiLSTM对部首嵌入进行编码,得到部首粒度上下文信息,之后通过全连接层得到部首粒度语义信息,公式(4)与公式(3)中符号含义基本一致,区别在于,
Figure FDA00035771185600000211
表示txt P_radical_embed,其维度为70,ir表示第i个位置的部首向量表示在文本中的相对位置,Pr表示部首粒度上下文信息,
Figure FDA0003577118560000028
表示第i个位置部首粒度语义信息,Pi r表示第i个位置部首粒度上下文信息,
Figure FDA0003577118560000029
表示部首粒度语义信息,Wr、br分别表示全连接层中部首粒度上下文信息的权重和偏置;同理,对文本Q进行与文本P类似的处理,可得字、词粒度上下文信息以及拼音、部首粒度语义信息,记为Qc、Qw
Figure FDA00035771185600000210
4.根据权利要求3所述的面向消防安全知识智能问答的文本语义匹配方法,其特征在于,所述多粒度交互模块的构建过程具体如下:
同一文本内部使用两层编码结构学习增强后的文本多粒度特征:首先为方便后续的说明,先进行如下定义,定义软对齐注意力记为SA,如公式(5)所示:
Figure FDA0003577118560000031
以文本P为例,假设Xi表示文本P第i个位置的字嵌入表示,yj表示文本P第j个位置的词嵌入表示,那么根据公式(5),Sij表示文本P第i个位置的字嵌入表示与第j个位置的词嵌入表示之间的注意力权重,
Figure FDA0003577118560000032
表示对注意力权重做softmax操作,
Figure FDA0003577118560000033
表示文本P第i个位置的字嵌入表示可由文本P所有位置的词嵌入表示加权求和进行重新表示,M表示文本P字、词嵌入表示的序列长度,
Figure FDA0003577118560000034
表示文本P第j个位置的词嵌入表示可由文本P的所有位置的字嵌入表示加权求和进行重新表示;
后续说明中,使用SA符号代表公式(5)的操作;
以文本P为例,描述同一文本内部使用两层编码结构学习增强后的文本多粒度特征的具体步骤:
第一层编码结构将公式(1)表示的文本P的字粒度上下文信息与公式(3)表示的文本P的拼音粒度语义信息使用软对齐注意力得到文本P的浅层字音、音字特征,记为
Figure FDA0003577118560000035
如公式(6)所示:
Figure FDA0003577118560000036
公式(1)表示的文本P的字粒度上下文信息与公式(4)表示的文本P的部首粒度语义信息使用软对齐注意力得到文本P的浅层字部、部字特征,记为
Figure FDA0003577118560000037
如公式(7)所示:
Figure FDA0003577118560000038
公式(2)表示的文本P的词粒度上下文信息与公式(3)表示的文本P的拼音粒度语义信息使用软对齐注意力得到文本P的浅层词音、音词特征,记为
Figure FDA0003577118560000039
如公式(8)所示:
Figure FDA00035771185600000310
公式(2)表示的文本P的词粒度上下文信息与公式(4)表示的文本P的部首粒度语义信息使用软对齐注意力得到文本P的浅层词部、部词特征,记为
Figure FDA00035771185600000311
如公式(9)所示:
Figure FDA00035771185600000312
同理,对文本Q进行与文本P类似的处理,可得文本Q的浅层字音、词音、字部、词部、音字、音词、部字、部词特征,分别记为
Figure FDA0003577118560000041
Figure FDA0003577118560000042
第二层编码结构将公式(6)表示的文本P的浅层字音与公式(8)表示的文本P的浅层词音特征使用软对齐注意力得到文本P的深层字音、词音特征,记为
Figure FDA0003577118560000043
Figure FDA0003577118560000044
如公式(10)所示:
Figure FDA0003577118560000045
将公式(7)表示的文本P的浅层字部与公式(9)表示的文本P的浅层词部特征使用软对齐注意力得到文本P的深层字部、词部特征,记为
Figure FDA0003577118560000046
如公式(11)所示:
Figure FDA0003577118560000047
将公式(6)表示的文本P的浅层音字与公式(8)表示的文本P的浅层音词特征使用软对齐注意力得到文本P的深层音字、音词特征,记为
Figure FDA0003577118560000048
如公式(12)所示:
Figure FDA0003577118560000049
将公式(7)表示的文本P的浅层部字与公式(9)表示的文本P的浅层部词特征使用软对齐注意力得到文本P的深层部字、部词特征,记为
Figure FDA00035771185600000410
如公式(13)所示:
Figure FDA00035771185600000411
同理,对文本Q进行与文本P类似的处理,可得文本Q的深层字音、词音、字部、词部、音字、音词、部字、部词特征,分别记为
Figure FDA00035771185600000412
Figure FDA00035771185600000413
为了增强文本的语义表示,利用残差机制,把公式(1)表示的文本P的字粒度上下文信息、公式(6)表示的文本P的浅层字音特征、公式(7)表示的文本P的浅层字部特征、公式(10)表示的文本P的深层字音特征以及公式(11)表示的文本P的深层字部特征合并得到增强后文本P的字粒度特征,记为Pc',如公式(14)所示;把公式(2)表示的文本P的词粒度上下文信息、公式(8)表示的文本P的浅层词音特征、公式(9)表示的文本P的浅层词部特征、公式(10)表示的文本P的深层词音特征以及公式(11)表示的文本P的深层词部特征合并得到增强后文本P的词粒度特征,记为Pw',如公式(15)所示;把公式(3)表示的文本P的拼音粒度语义信息、公式(6)表示的文本P的浅层音字特征、公式(8)表示的文本P的浅层音词特征、公式(12)表示的文本P的深层音字特征以及公式(12)表示的文本P的深层音词特征合并得到增强后文本P的拼音粒度特征,记为
Figure FDA00035771185600000414
如公式(16)所示;把公式(4)表示的文本P的部首粒度语义信息、公式(7)表示的文本P的浅层部字特征、公式(9)表示的文本P的浅层部词特征、公式(13)表示的文本P的深层部字特征以及公式(13)表示的文本P的深层部词特征合并得到增强后文本P的部首粒度特征,记为
Figure FDA0003577118560000051
如公式(17)所示;
Figure FDA0003577118560000052
Figure FDA0003577118560000053
Figure FDA0003577118560000054
Figure FDA0003577118560000055
同理,对文本Q进行与文本P类似的处理,可得增强后文本Q的字、词、拼音、部首粒度特征,分别记为Qc'、Qw'
Figure FDA0003577118560000056
在文本间使用多层编码结构学习增强后的文本多粒度交互特征:将公式(6)表示的文本P的浅层字音特征、公式(6)表示文本P的浅层音字特征、公式(7)表示文本P的浅层字部特征、公式(7)表示文本P的浅层部字特征合并得到文本P的浅层字粒度特征,记为
Figure FDA0003577118560000057
如公式(18)所示;将公式(8)表示的文本P的浅层词音特征、公式(8)表示的文本P的浅层音词特征、公式(9)表示的文本P的浅层词部特征、公式(9)表示的文本P的浅层部词特征合并得到文本P的浅层词粒度特征,记为
Figure FDA0003577118560000058
如公式(19)所示;
Figure FDA0003577118560000059
Figure FDA00035771185600000510
同理,对文本Q进行与文本P类似的处理,可得文本Q的浅层字、词粒度特征,记为
Figure FDA00035771185600000511
将公式(18)表示的文本P的浅层字粒度特征与文本Q的浅层字粒度特征使用软对齐注意力,分别得到交互后文本P的字粒度特征,记为
Figure FDA00035771185600000512
和交互后文本Q的字粒度特征,记为
Figure FDA00035771185600000513
如公式(20)所示:
Figure FDA00035771185600000514
同理,公式(19)表示的文本P的浅层词粒度特征和文本Q的浅层词粒度特征使用软对齐注意力得到交互后文本P的词粒度特征,记为
Figure FDA00035771185600000515
和交互后文本Q的词粒度特征,记为
Figure FDA00035771185600000516
如公式(21)所示:
Figure FDA00035771185600000517
为了增强文本间的语义表示,将公式(18)表示的文本P的浅层字粒度特征与公式(20)表示的交互后文本P的字粒度特征联接得到增强后文本P的字粒度交互特征,记为
Figure FDA00035771185600000518
如公式(22)所示;将公式(19)表示的文本P的浅层词粒度特征与公式(21)表示的交互后文本P的词粒度特征联接得到增强后文本P的词粒度交互特征,记为
Figure FDA00035771185600000519
如公式(23)所示;
Figure FDA00035771185600000520
Figure FDA0003577118560000061
同理,对文本Q进行与文本P类似的处理,可得增强后文本Q的字、词粒度交互特征,记为
Figure FDA0003577118560000062
5.根据权利要求4所述的面向消防安全知识智能问答的文本语义匹配方法,其特征在于,所述特征融合模块的构建过程具体如下:
首先为方便后续的说明,先进行如下定义,定义自对齐注意力记为IA,如公式(24)所示:
Figure FDA0003577118560000063
以文本P为例,假设Xi表示文本P第i个位置的字粒度嵌入表示,Xj表示文本P第j个位置的字粒度嵌入表示,那么Sij表示文本P第i个位置字粒度嵌入表示与第j个位置字粒度嵌入表示的注意力权重,
Figure FDA0003577118560000064
表示对注意力权重做softmax操作,可以理解为两者的关联强度,Xi′表示文本P第i个位置的字粒度嵌入表示与其他位置的字粒度嵌入表示之间的交互特征,L表示文本P字粒度嵌入表示的序列长度,X”i表示文本P第i个位置的字粒度嵌入表示与交互特征之和;
后续说明中,使用IA符号代表公式(24)的操作;
在特征聚合层,对于同一文本内部来说,将公式(14)表示的增强后文本P的字粒度特征、公式(15)表示的增强后文本P的词粒度特征、公式(16)表示的增强后文本P的拼音粒度特征、公式(17)表示的增强后文本P的部首粒度特征分别使用自对齐注意力得到对齐后文本P的字、词、拼音、部首粒度特征,分别记为Pc”、Pw”
Figure FDA0003577118560000065
如公式(25)所示:
Figure FDA0003577118560000066
随后将公式(25)表示的对齐后文本P的字、词、拼音、部首粒度特征经过最大池化和平均池化操作,分别得到池化后文本P的字、词、拼音、部首粒度特征,记为
Figure FDA0003577118560000067
如公式(26)所示:
Figure FDA0003577118560000068
其中max表示最大池化操作,mean表示平均池化操作,可以过滤掉噪音信息或不重要信息进一步提取关键的语义信息,dim表示张量的维度;
同理,对文本Q进行与文本P类似的处理,可得对齐后文本Q的字、词、拼音、部首粒度特征以及池化后文本Q的字、词、拼音、部首粒度特征,分别记为Qc”、Qw”
Figure FDA0003577118560000071
对于文本间的操作和对同一文本内部的操作基本相同,将公式(22)表示的增强后文本P的字粒度交互特征与公式(23)表示的增强后文本P的词粒度交互特征使用自对齐注意力得到对齐后文本P的字、词粒度交互特征,记为
Figure FDA0003577118560000072
如公式(27)所示:
Figure FDA0003577118560000073
随后将公式(27)表示的对齐后文本P的字、词粒度交互特征经过最大池化和平均池化操作得到池化后文本P的字、词粒度交互特征,记为
Figure FDA0003577118560000074
如公式(28)所示:
Figure FDA0003577118560000075
其中max表示最大池化操作,mean表示平均池化操作,可以过滤掉噪音信息或不重要信息进一步提取关键的语义信息,dim表示张量的维度;
同理,对文本Q进行与文本P类似的处理,可得对齐后文本Q的字、词粒度交互特征以及池化后文本Q的字、词粒度交互特征,记为
Figure FDA0003577118560000076
Figure FDA0003577118560000077
使用三种匹配方法对特征进行匹配,之后将所有的匹配向量进行联接:首先为方便下文使用,先进行如下定义,定义匹配函数记为match,如公式(29)所示:
Figure FDA0003577118560000078
P、Q假设为文本P和文本Q的两个向量,ab表示两向量对应位置相减之后绝对值运算,mu表示两向量对应位置相乘运算,sub表示两向量对应位置相减运算;
后续说明中,match符号代表公式(29)的操作;
将公式(26)表示的池化后文本P的字、词、拼音、部首粒度特征以及池化后文本Q的字、词、拼音、部首粒度特征分别进行匹配得到对应的匹配向量分别表示为M1、M2、M3、M4,将公式(28)表示的池化后文本P的字、词粒度交互特征以及池化后文本Q的字、词粒度交互特征分别进行匹配得到对应的匹配向量分别表示为M5、M6,如公式(30)所示:
Figure FDA0003577118560000079
最后将公式(30)表示的所有的匹配向量联接生成最终匹配表示向量,如公式(31)所示:
F=[M1;M2;M3;M4;M5;M6] (31)
公式(31)表示将各个匹配向量进行联接,生成最终匹配表示向量。
6.根据权利要求5所述的面向消防安全知识智能问答的文本语义匹配方法,其特征在于,所述预测模块的构建过程具体如下:
在该模块中,最终匹配表示向量经过一层维度为1、激活函数为sigmoid的全连接网络处理,从而得到一个处于[0,1]之间的匹配度数值,记为ypred,最终通过与设立的阈值0.5进行比较,从而判断文本的语义是否匹配;即ypred≥0.5时,预测文本的语义是匹配的,否则,不匹配。
7.根据权利要求1所述的面向消防安全知识智能问答的文本语义匹配方法,其特征在于,所述文本语义匹配知识库的构建过程具体如下:
收集数据:下载网络上已经公开的文本语义匹配数据集或人工构建数据集,将其作为构建文本语义匹配知识库的原始数据;
预处理原始数据:预处理用于构建文本语义匹配知识库的原始数据,对其中的每个文本均进行断字操作、分词操作,转换拼音操作,提取字部首操作,得到文本语义匹配断字处理知识库、分词处理知识库、拼音处理知识库、部首处理知识库;
汇总文本知识库:汇总文本语义匹配断字处理知识库、文本语义匹配分词处理知识库、文本语义匹配拼音处理知识库和文本语义匹配部首处理知识库构建文本语义匹配知识库;
所述文本语义匹配模型通过使用训练数据集进行训练而得到,训练数据集的构建过程如下:
构建训练正例:将两个文本语义一致的文本构建为正例数据;
构建训练负例:对于所获得的每个正例文本,选中其包含的某一个文本,随机选择与其不匹配的某个文本进行组合,将这两个语义不一致的文本,构建为负例数据;
构建训练数据集:将所获得的全部的正例文本数据和负例文本数据,合并在一起,并打乱其顺序,构建最终的训练数据集;
所述文本语义匹配模型构建完成后通过训练数据集进行文本语义匹配模型的训练与优化,具体如下:
构建损失函数:由预测模块构建过程可知,ypred为经过文本语义匹配模型处理后得到的匹配度计算数值;而ytrue是两个文本语义是否匹配的真实标签,其取值仅限于0或1,数据来源于训练数据集中,采用交叉熵作为损失函数;
构建优化函数:模型经过对多种优化函数进行测试,最终选择使用Adam优化函数作为本模型的优化函数,其超参数均选择Keras中的默认值设置。
8.一种面向消防安全知识智能问答的文本语义匹配装置,其特征在于,该装置包括文本语义匹配知识库构建单元、训练数据集生成单元、文本语义匹配模型构建单元、文本语义匹配模型训练单元,分别实现权利要求1-7所描述的面向消防安全知识智能问答的文本语义匹配方法的步骤。
9.一种储存介质,其中储存有多条指令,其特征在于,所述指令有处理器加载,执行权利要求1-7中所述的面向消防安全知识智能问答的文本语义匹配方法的步骤。
10.一种电子设备,其特征在于,所述电子设备包括:
权利要求9所述的储存介质以及处理器,用于执行所述储存介质中的指令。
CN202210337395.9A 2022-04-01 2022-04-01 面向消防安全知识智能问答的文本语义匹配方法和装置 Active CN114547256B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210337395.9A CN114547256B (zh) 2022-04-01 2022-04-01 面向消防安全知识智能问答的文本语义匹配方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210337395.9A CN114547256B (zh) 2022-04-01 2022-04-01 面向消防安全知识智能问答的文本语义匹配方法和装置

Publications (2)

Publication Number Publication Date
CN114547256A true CN114547256A (zh) 2022-05-27
CN114547256B CN114547256B (zh) 2024-03-15

Family

ID=81666566

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210337395.9A Active CN114547256B (zh) 2022-04-01 2022-04-01 面向消防安全知识智能问答的文本语义匹配方法和装置

Country Status (1)

Country Link
CN (1) CN114547256B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112000770A (zh) * 2020-08-24 2020-11-27 齐鲁工业大学 面向智能问答的基于语义特征图的句子对语义匹配方法
CN112000772A (zh) * 2020-08-24 2020-11-27 齐鲁工业大学 面向智能问答基于语义特征立方体的句子对语义匹配方法
CN113065358A (zh) * 2021-04-07 2021-07-02 齐鲁工业大学 面向银行咨询服务基于多粒度对齐的文本对语义匹配方法
WO2021164199A1 (zh) * 2020-02-20 2021-08-26 齐鲁工业大学 基于多粒度融合模型的中文句子语义智能匹配方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021164199A1 (zh) * 2020-02-20 2021-08-26 齐鲁工业大学 基于多粒度融合模型的中文句子语义智能匹配方法及装置
CN112000770A (zh) * 2020-08-24 2020-11-27 齐鲁工业大学 面向智能问答的基于语义特征图的句子对语义匹配方法
CN112000772A (zh) * 2020-08-24 2020-11-27 齐鲁工业大学 面向智能问答基于语义特征立方体的句子对语义匹配方法
CN113065358A (zh) * 2021-04-07 2021-07-02 齐鲁工业大学 面向银行咨询服务基于多粒度对齐的文本对语义匹配方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴少洪;彭敦陆;苑威威;陈章;刘丛;: "MGSC:一种多粒度语义交叉的短文本语义匹配模型", 小型微型计算机系统, no. 06, 14 June 2019 (2019-06-14) *

Also Published As

Publication number Publication date
CN114547256B (zh) 2024-03-15

Similar Documents

Publication Publication Date Title
CN111310438B (zh) 基于多粒度融合模型的中文句子语义智能匹配方法及装置
CN111325028B (zh) 一种基于深度分层编码的智能语义匹配方法和装置
CN111310439B (zh) 一种基于深度特征变维机制的智能语义匹配方法和装置
CN109492202A (zh) 一种基于拼音的编码与解码模型的中文纠错方法
CN108062388A (zh) 人机对话的回复生成方法和装置
CN112000772B (zh) 面向智能问答基于语义特征立方体的句子对语义匹配方法
CN113065358B (zh) 面向银行咨询服务基于多粒度对齐的文本对语义匹配方法
CN111985239A (zh) 实体识别方法、装置、电子设备及存储介质
CN111858932A (zh) 基于Transformer的多重特征中英文情感分类方法及系统
CN109918681B (zh) 一种基于汉字-拼音的融合问题语义匹配方法
CN112001166A (zh) 面向政务咨询服务的智能问答句子对语义匹配方法和装置
CN111767718A (zh) 一种基于弱化语法错误特征表示的中文语法错误更正方法
CN114926150A (zh) 一种变压器技术符合性评估数字化智能审核方法与装置
CN113220890A (zh) 一种基于预训练的结合新闻标题和新闻长文本内容的深度学习方法
CN112463924B (zh) 面向智能问答基于内部相关性编码的文本意图匹配方法
CN112000771A (zh) 一种面向司法公开服务的句子对智能语义匹配方法和装置
CN113392265A (zh) 多媒体处理方法、装置及设备
CN115019142A (zh) 基于融合特征的图像标题生成方法、系统、电子设备
CN113051904B (zh) 一种面向小规模知识图谱的链接预测方法
CN114492460A (zh) 基于衍生提示学习的事件因果关系抽取方法
CN110826341A (zh) 一种基于seq2seq模型的语义相似度计算方法
CN115269808A (zh) 面向医疗智能问答的文本语义匹配方法和装置
CN115860002A (zh) 一种基于事件抽取的作战任务生成方法及系统
CN114547256B (zh) 面向消防安全知识智能问答的文本语义匹配方法和装置
CN115203388A (zh) 机器阅读理解方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant