CN114461816A

CN114461816A - 基于知识图谱的信息补充语义通信系统的实现方法

Info

Publication number: CN114461816A
Application number: CN202210097987.8A
Authority: CN
Inventors: 吴伟; 孙文虎; 周福辉
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2022-01-27
Filing date: 2022-01-27
Publication date: 2022-05-10

Abstract

本发明提供了一种基于知识图谱的信息补充语义通信系统的实现方法，相较于传统的通信信号传输系统，该系统创新性地在接收方利用基于BERT模型的命名实体识别技术、基于知识图谱的知识关联技术以及知识图谱文本生成技术扩充补全少量的接收信息使得接收端用户可以获取发送方想要表达的完整信息，从而显著减少了通信传输数据量；创新性地利用基于字符的余弦相似度纠错技术解决了通信传输过程和命名实体识别过程导致的实体错误，显著提高了系统在较高信道差错概率情况下的信息传输准确度，也使得系统具有更好的鲁棒性。

Description

基于知识图谱的信息补充语义通信系统的实现方法

技术领域

本发明涉及一种基于知识图谱的信息补充语义通信系统的实现方法，属于通讯技术领域。

背景技术

近年来，随着人们对无线通信智能化需求的迅速提升，各种基于无线通信技术的新兴智能业务如工业互联网、智能网联车、远程医疗/手术、虚拟现实及全息投影技术等层出不穷。这些新兴业务不再仅仅依靠高速率的数据传输，而逐渐对网络智能化和服务多样性等方面提出更多要求。未来6G时代，随着系统传输信道容量逐渐接近香农极限，一种打破原有信息传输极限的通信方式是目前通信领域探索的主要方向之一。

在过去的几十年里，通信主要关注的是如何准确有效地将符号(以比特计量)从发射机传输到接收机。在这种系统中，误码率(BER)或符号误码率(SER)通常被作为性能指标。随着第一代通信(1G)到第五代通信(5G)的发展，实现的传输速率提高了数万倍，系统容量逐渐接近香农极限。随着各种各样新应用出现，如自动交通、消费者机器人、环境监测和远程健康等。这些应用程序的相互连接将产生zeta字节为数量级的惊人数据。这些应用需要在有限的频谱资源上支持大量连接，同时要求较低的延迟，这对传统的信源信道编码提出了挑战。语义通信可以在语义域对数据进行处理，提取数据意义，过滤掉无用、不相关、不重要的信息，在保留意义同时进一步压缩数据。此外，语义通信在恶劣的信道环境，即低信噪比(SNR)区域，具有较强的鲁棒性，适合要求高可靠性的应用。

语义通信是一种全新的通信架构，它通过将用户对信息的需求及语义融入通信过程，将有望大幅度提高通信效率、改进用户的体验质量，并从根本上解决基于数据的传统通信协议中存在的跨系统、跨协议、跨网络、跨人—机不兼容和难互通等问题。

最近，基于深度学习的语义通信模型取得了一些进展，比如基于Transformer模型的端到端神经网络语义通信模型，该模型用于文本信息传输；基于深度学习的语音信号语义通信系统DeepSC-S，为了提高语音信号关键信息的恢复精度，结合压缩激励(SE)网络开发了DeepSC-S；轻量级面向物联网的分布式语义通信模型，利用基于深度去噪网络的CSI细化与消除技术以及网络稀疏化、量子化压缩技术解决语义通信模型训练参数过多问题。

上述模型都基于深度学习或自然语言处理相关技术，利用发送与接收信息交叉熵作为损失函数进行深度学习参数迭代，增加模型接收端信息恢复的能力，在BLEU以及相关信息恢复准确度指标上取得了一些不错的结果。但这些模型主要利用预训练自然语言处理模型，未利用知识图谱本身的优势，故在低信澡比情况下，准确度会比较低。

有鉴于此，确有必要提出一种基于知识图谱的信息补充语义通信系统的实现方法，以解决上述问题。

发明内容

本发明的目的在于提供一种基于知识图谱的信息补充语义通信系统的实现方法，以减少通信过程所需传输数据量，而且使该系统模型在低信噪比情况下具有比传统通信模型更好的鲁棒性。

为实现上述目的，本发明提供了一种基于知识图谱的信息补充语义通信系统的实现方法，所述实现方法主要包括：

步骤1，获取数据集以及准备相关知识图谱；

步骤2，编码信息、解码信息以及传输信息；

步骤3，基于初始解码信息的命名实体识别；

步骤4，基于知识图谱数据库的相似度对比实体纠错；利用余弦相似度计算公式，计算知识图谱数据库实体与识别实体的相似度得分，将知识库中得分最高的对应实体作为识别实体的正确结果，以进行纠错；记纠错后的实体集为E'(i)；

步骤5，基于知识图谱的关联信息补充；调用neo4j知识图谱数据库，对经过纠错的命名实体进行知识库关联实体查询检索，获取对话场景下输入实体的关联实体及关系，形成格式规整的SPO三元组数据集T(i)输出给文本生成模型；

步骤6，生成知识图谱文本；用预训练的T₅模型作为知识图谱文本生成模型，采用数据集作为知识图谱文本生成模型训练集及验证集，进行知识图谱文本生成模型训练，训练阶段后，生成参数模型文件，该模型可以利用检索出的三元组生成句子Text(i)；

步骤7，进行模型整体测试；将要发送的语句与接收端最终恢复的语句进行包括BLEU评分以及基于BERT模型的句子相似度评分等多个指标的对比分析，并与传统通信模型的相关得分进行比较分析。

作为本发明的进一步改进，在步骤1中，基于相关标识符利用代码提取其中的三元组数据，并对错误及重复数据进行清洗，形成可用的格式规整三元组数据集，数据集中的文本经过处理，以作为通信过程发送语句来源，三元组数据利用neo4j形成知识图谱供模型使用。

作为本发明的进一步改进，在步骤2中，所述编码信息包括信源编码和信道编码；所述解码信息包括信源解码和信道解码。

作为本发明的进一步改进，所述信源编码为霍夫曼编码，所述信道编码为卷积码方式；所述信源解码为霍夫曼解码，所述信道解码为卷积码对应解码方式。

作为本发明的进一步改进，在步骤3中，采用基于掩码语言模型和下一句预测模型的BERT预训练语言模型作为命名实体识别的编码器，对训练语料进行词向量的嵌入编码，然后利用条件随机场(CRF)作为命名实体识别模型的解码模块，获取最优的标注序列，经过信道解码信源解码的恢复序列为

将BERT加CRF的命名实体识别模型记为BERF,获得实体集记为E(i)。

作为本发明的进一步改进，所述命名实体识别的处理过程的抽象表达式为：

作为本发明的进一步改进，在步骤4中，纠错步骤主要包括：

步骤4.1，用数字0到25对26个字母进行编码；

步骤4.2，将命名实体识别出的实体及知识库中的实体每个字母按顺序编码；

步骤4.3，对A_i和B_i进行oneHot编码,计算每个字母出现的次数；

步骤4.4，获得两个实体的独热编码向量之后，利用余弦相似度公式计算两个向量之间夹角的余弦值，值越大相似度越高；

步骤4.5，遍历知识库中的实体B_i，分别计算它们和识别实体的余弦相似度，将相似度得分最高的实体B_i作为正确实体，记为E'(i)。

作为本发明的进一步改进，所述余弦相似度的计算公式为：

作为本发明的进一步改进，在步骤5中，信息补充步骤主要包括：

步骤5.1，从纠错模块获取实体集E'(i)；

步骤5.2，将实体E'(i)作为头实体在知识图谱可视化软件neo4j中检索对应的关系及尾实体；

步骤5.3，在与头实体相关全部关系及为实体之前添加标识符“<H>”、“<R>”、“<T>”，形成形如“<H>Athens<R>country<T>Greece”的三元组传输给文本生成器。

作为本发明的进一步改进，在步骤5中，所述T₅模型的三元组文本生成表达式为：Text(i)＝T₅(T(i))。

本发明的有益效果是：本发明基于知识图谱的信息补充语义通信系统的实现方法通过利用基于知识图谱的实体相似度纠错、知识关联、文本生成技术，不仅减少了通信过程所需传输数据量，而且使该系统模型在低信噪比情况下具有比传统通信模型更好的鲁棒性。具体地，第一，由于本发明引入知识图谱对获取到的实体进行知识关联，从而补充发送语句相关有用信息，相比于传统的通信系统模型，减少了发送信息比特数。

第二，由于本发明引入基于知识图谱的纠错机制，对由于信道干扰导致错误的实体进行纠正，使获取的关联信息准确度更高，相比于传统的通信系统模型，在信道差错率较高的情况下本发明仍能获取相对较好的结果。

附图说明

图1是本发明基于知识图谱的信息补充语义通信系统的实现方法的流程图。

图2是本发明与其他传统信源信道编码方法在传输不同符号数时传输信息比特数对比图。

图3是本发明与其他传统信源信道编码方法在不同信道差错率下发送接收句子相似度对比图。

图4是本发明与其他传统信源信道编码方法在不同信道差错率下发送接收句子1～4grams BLEU得分对比图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

如图1所示，本发明揭示了一种基于知识图谱的信息补充语义通信系统的实现方法，该实现方法主要包括：

步骤1，获取数据集以及准备相关知识图谱；

步骤2，编码信息、解码信息以及传输信息；

步骤3，基于初始解码信息的命名实体识别；

具体而言，在步骤1中，本发明实验验证所采用的数据集为公开的WebNLG 2020三元组生成文本竞赛数据集，该数据集包含训练集、验证集、测试集，观察数据格式“<H>Aarhus_Airport<R>city_served<T>"Aarhus,Denmark"||The Aarhus is the airport ofAarhus,Denmark.”，发现三元组头尾实体及关系都有明显标识，三元组与生成语句也可通过“||”进行很好的分离，本发明利用这些标识符进行三元组信息提取，将头尾实体及关系进行分离，并对错误及重复数据进行清洗，形成格式规整三元组CSV数据集，及纯文本语句数据集，语句经过处理作为通信过程发送语句来源，三元组数据利用neo4j形成图数据库供模型仿真验证使用。

在步骤2中，假设信源是随机的，发送信息的概率为p(i)，则信源的信息熵可以表示为

当信源编码采用定长编码方法时，传输信息率R＝(K/L)log₂m，只要R≥H(X)则可以实现无失真编码，本发明采用7位定长编码作为信息信源编码方案之一。Huffman编码作为一种效率比较高的变长无失真信源编码方法经常用在传统通信模型当中，本发明将Huffman编码作为本模型的信源编码方法之一。解码模块即采用与编码方式对应的定长解码或Huffman解码方式。信源编码符号记为S(.)，信源解码符号记为S^-1(.)。

信道编码模块本发明采用卷积码作为信道编解码方式，卷积码和分组码的区别在于，它不是把信息序列分组后再进行单独编码，而是由连续输入的信息序列得到连续输出的已编码序列，比较适合串行方式的数据传输。信道编码符号记为C(.)，信道解码符号记为C^-1(.)。

设原信息为s(i)，经过信源编码和信道编码后的发送信号为x(i)，信源编码信道编码公式为x(i)＝C(S(s(i)))，接收信号y(i)为经过信道衰落和加性高斯白噪声干扰的衰落信号，信号传输过程公式为y(i)＝hx(i)+ε。其中，h表示信道衰落函数，ε表示均值为0，方差为σ²的加性高斯白噪声。

接收信息首先进行信道解码，然后进行信源解码恢复原始信息

信号解码恢复公式为

在步骤3中，本发明采用基于掩码语言模型和下一句预测模型的BERT预训练语言模型作为命名实体识别的编码器模块，对训练语料进行词向量的嵌入编码，然后利用条件随机场作为命名实体识别模型的解码模块，获取最优标注序列，最后输出实体集。BERT加CRF的命名实体识别模型记为BERF,获得实体集记为E(i)。命名实体识别处理过程表达式为：

具体操作是，下载开源的预训练BERT模型的checkpoints及vocabulary文件，作为训练的初始参数模型，利用本发明的训练数据集文本作为标注数据集，设置超参数：最大序列长度为128，训练小批次大小为32，学习率为2e^-5，训练迭代次数为3，对模型参数进行微调，多次迭代拟合之后，输出可应用于本发明相关数据命名实体识别的参数模型，从接收端获取初始解码信息后，利用该模型进行命名实体识别，输出句子中的实体。

在步骤4中，纠错步骤主要包括：

步骤4.1，用数字0到25对26个字母进行编码；

步骤4.3，对A_i和B_i进行oneHot编码,计算每个字母出现的次数；

具体而言，首先，用数字0到25对26个字母不区分大小写进行编码，“a、B、c、d”编码为[0,1,2,3]；

然后，将命名实体识别出的实体A_i及知识库中的实体B_i每个字母按顺序编码；对于识别出的实体“Aldenmie Jones”和知识库实体“Albennie Jones”,编码为：

A_i：[0,11,3,4,13,12,8,4,9,14,13,4,18]

B_i：[0,11,1,4,13,13,8,4,9,14,13,4,18]

其次，对A_i和B_i进行oneHot编码,计算每个字母出现的次数,上述实体的独热编码为：

[1,0,0,1,3,0,0,0,1,1,0,1,1,2,1,0,0,0,1,0,0,0,0,0,0,0]

[1,1,0,1,3,0,0,0,1,1,0,1,0,3,1,0,0,0,1,0,0,0,0,0,0,0]

获得两个实体的独热编码向量之后，利用下面的余弦公式计算两个向量之间夹角的余弦值，值越大相似度越高。余弦相似度计算公式：

最后，遍历知识库中的实体，分别计算它们和识别实体的余弦相似度，将相似度得分最高的实体作为正确实体，实体集记为E'(i)。

在步骤5中，信息补充步骤主要包括：

步骤5.1，从纠错模块获取实体集E'(i)；

具体而言，编码代码，调用neo4j知识图谱数据库，将纠错模块输出的命名实体作为头实体进行知识库关联实体查询检索，获取对话场景下输入实体的关联实体及关系，形成格式规整的SPO三元组T(i)输出给文本生成模型。实体检索形成三元组的表达式为：

T(i)＝Retrieval(E'(i))。

具体过程为，从纠错模块获取实体集E'(i)，将实体E'(i)作为头实体在知识图谱可视化软件neo4j中检索对应的关系及尾实体，利用cypher语句“MATCH(a:head{value:'Athens'})-[b:relation]->(c:tail)RETURN a.value,b.value,c.value”获得一些粗糙三元组结果；在与头实体相关全部关系及为实体之前添加标识符“<H>”、“<R>”、“<T>”，形成形如：“<H>Athens<R>country<T>Greece；<H>Athens<R>mayor<T>Giorgos_Kaminis”的三元组传输给文本生成器。

在步骤6中，本发明采用预训练的T₅模型作为知识图谱文本生成初始模型，采用WebNLG 2020竞赛数据集作为知识图谱文本生成模型训练集及验证集，进行知识图谱文本生成模型的微调训练，设置学习率为5e^-5，小批次大小为2，训练100个epoch之后，生成模型参数文件Models.pt，模型测试基于三元组生成句子Text(i)。基于T₅模型的三元组文本生成表达式为：Text(i)＝T₅(T(i))。

将前面检索得出三元组数据集作为输入文件，结合生成的参数模型进行文本生成，恢复相关句子信息Text(i)。

在步骤7中，进行模型整体测试，输入一个句子集作为发送端的输入信息，信息经过信源信道编解码在接收端被初步恢复，经过命名实体识别、关联信息扩充、文本生成一系列处理后，输出经过信息补充的信息。经恢复信息与发送信息进行比较，验证模型的性能。

下面结合仿真实验对本发明的效果做进一步说明。

1、仿真条件与参数设置：

本发明的仿真实验是在Python3.8的仿真平台上进行的。计算机CPU型号为因特尔酷睿i7，自然语言处理模型采用服务器GPU英伟达Geforce RTX2080进行训练。本发明使用数据集为WebNLG 2020竞赛数据集，在训练集上微调T5模型100步，学习率为0.0001。

2、仿真内容：

如图2是本发明与其他传统通信模型在传输不同符号数时传输信息比特数对比图。横坐标为不同发送符号数，纵坐标为发送数据的比特数。星型折线表示本发明的发送数据比特数变化曲线，菱型折线表示定长信源编码加卷积码信道编码的发送数据比特数变化曲线，三角型折线表示Huffman编码加卷积信道编码发送数据比特数变化曲线，通过比较可以看出本发明的传输相同信息时所需的比特数更少。

如图3为本发明与其他传统通信模型在不同信道差错率下发送接收句子相似度对比图。横坐标为不同二元对称信道差错率，纵坐标为句子相似度得分。星型折线表示本发明在不同二元对称信道差错率下的句子相似度得分变化曲线，菱型折线表示定长信源编码加卷积码信道编码在不同二元对称信道差错率下的句子相似度得分变化曲线，三角型折线表示Huffman编码加卷积信道编码在不同二元对称信道差错率下的句子相似度得分变化曲线，通过比较可以看出在差错率较低时本发明的恢复效果并不是最优的，但信道差错概率较高时，本发明的恢复效果明显优于传统的通信模型。

如图4为本发明与其他传统信源信道编码方法在不同信道差错率下发送方接收方句子的1～4grams BLEU得分对比图。横坐标为不同二元对称信道差错率，纵坐标为BLEU得分。星型折线表示本发明在不同二元对称信道差错率下的BLEU得分变化曲线，菱型折线表示定长信源编码加卷积码信道编码在不同二元对称信道差错率下的BLEU得分变化曲线，三角型折线表示Huffman编码加卷积信道编码在不同二元对称信道差错率下的BLEU得分变化曲线，通过比较可以看出在差错率较低时本发明的恢复效果并不是最优的，但信道差错概率较高时，本发明的恢复效果明显优于传统的通信模型。

根据仿真结果和分析，本发明所提出的基于知识图谱的信息补充语义通信模型，相比传统的通信模型，传输相同信息量可以节省更多通信资源，同时在信道状态较差时，本发明的信息恢复效果更好，这使得本发明在实际的通信场景中能更好的得到应用。

综上所述，本发明针对未来物联网设备显著增多导致的信息数据传输量逐渐加大的问题，提出了一种基于知识图谱的信息补充语义通信系统。相较于传统的通信信号传输系统，该系统创新性地在接收方利用基于BERT模型的命名实体识别技术、基于知识图谱的知识关联技术以及知识图谱文本生成技术扩充补全少量的接收信息使得接收端用户可以获取发送方想要表达的完整信息，从而显著减少了通信传输数据量；创新性地利用基于字符的余弦相似度纠错技术解决了通信传输过程和命名实体识别过程导致的实体错误，显著提高了系统在较高信道差错概率情况下的信息传输准确度，也使得系统具有更好的鲁棒性。

以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种基于知识图谱的信息补充语义通信系统的实现方法，其特征在于，所述实现方法主要包括：

步骤1，获取数据集以及准备相关知识图谱；

步骤2，编码信息、解码信息以及传输信息；

步骤3，基于初始解码信息的命名实体识别；

2.根据权利要求1所述的基于知识图谱的信息补充语义通信系统的实现方法，其特征在于：在步骤1中，基于相关标识符利用代码提取其中的三元组数据，并对错误及重复数据进行清洗，形成可用的格式规整三元组数据集，数据集中的文本经过处理，以作为通信过程发送语句来源，三元组数据利用neo4j形成知识图谱供模型使用。

3.根据权利要求2所述的基于知识图谱的信息补充语义通信系统的实现方法，其特征在于：在步骤2中，所述编码信息包括信源编码和信道编码；所述解码信息包括信源解码和信道解码。

4.根据权利要求3所述的基于知识图谱的信息补充语义通信系统的实现方法，其特征在于：所述信源编码为霍夫曼编码，所述信道编码为卷积码方式；所述信源解码为霍夫曼解码，所述信道解码为卷积码对应解码方式。

5.根据权利要求1所述的基于知识图谱的信息补充语义通信系统的实现方法，其特征在于：在步骤3中，采用基于掩码语言模型和下一句预测模型的BERT预训练语言模型作为命名实体识别的编码器，对训练语料进行词向量的嵌入编码，然后利用条件随机场(CRF)作为命名实体识别模型的解码模块，获取最优的标注序列，经过信道解码信源解码的恢复序列为

将BERT加CRF的命名实体识别模型记为BERF,获得实体集记为E(i)。

6.根据权利要求5所述的基于知识图谱的信息补充语义通信系统的实现方法，其特征在于：所述命名实体识别的处理过程的抽象表达式为：

7.根据权利要求1所述的基于知识图谱的信息补充语义通信系统的实现方法，其特征在于，在步骤4中，纠错步骤主要包括：

步骤4.1，用数字0到25对26个字母进行编码；

步骤4.3，对A_i和B_i进行oneHot编码,计算每个字母出现的次数；

8.根据权利要求7所述的基于知识图谱的信息补充语义通信系统的实现方法，其特征在于，所述余弦相似度的计算公式为：

9.根据权利要求1所述的基于知识图谱的信息补充语义通信系统的实现方法，其特征在于，在步骤5中，信息补充步骤主要包括：

步骤5.1，从纠错模块获取实体集E'(i)；

10.根据权利要求1所述的基于知识图谱的信息补充语义通信系统的实现方法，其特征在于：在步骤5中，所述T₅模型的三元组文本生成表达式为：Text(i)＝T₅(T(i))。