CN111090755B

CN111090755B - 一种文本关联关系判别方法及存储介质

Info

Publication number: CN111090755B
Application number: CN201911197172.1A
Authority: CN
Inventors: 张垚; 庄莉; 梁懿; 苏江文; 王秋琳; 彭放; 李君婷; 丁勇; 王端瑞; 尚颖; 刘瑞芳
Original assignee: Big Data Center Of State Grid Corp Of China; State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd; State Grid Fujian Electric Power Co Ltd; State Grid Beijing Electric Power Co Ltd; Fujian Yirong Information Technology Co Ltd; Great Power Science and Technology Co of State Grid Information and Telecommunication Co Ltd
Current assignee: Big Data Center Of State Grid Corp Of China; State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd; State Grid Fujian Electric Power Co Ltd; State Grid Beijing Electric Power Co Ltd; Fujian Yirong Information Technology Co Ltd; Great Power Science and Technology Co of State Grid Information and Telecommunication Co Ltd
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2023-04-04
Anticipated expiration: 2039-11-29
Also published as: CN111090755A

Abstract

一种文本关联关系判别方法及存储介质，其中方法包括如下步骤，对输入的语料进行预处理，得到预处理文本，对预处理文本中的文本字段进行判断是否为超短文本，对其中的超短文本根据行业知识图谱进行改写，得到改写文本，将改写文本输入BERT模型进行训练、分析，得到模型输出的关联关系判别结果。本发明可以结合超短文本改写技术进行短文本关联关系判断的方法。对比已有方案具有语义理解能力强、文本长度影响小、相关性判断准确率高的有益效果，综上所述，本发明解决了现有技术中对行业文本相关性的判断仍然不够准确的问题。

Description

一种文本关联关系判别方法及存储介质

技术领域

本发明涉及机器学习领域，尤其涉及一种文本关联关系的智能判别方法。

背景技术

随着大数据时代的兴起，短文本已经成为一种越来越常见的文本数据，例如文章摘要、新闻标题、公文标题、微博、微信、客户评论等等，这些数据之间存在着丰富的语义关联，如何建立一种高效的关联关系挖掘模型，并从大量的短文本数据集中挖掘出潜在的语义信息已经成为众多应用的基石。通过关联关系挖掘模型，我们能获得海量短文本间的潜在关联关系，从而可以应用到如搜索、兴趣分析、内容推荐、主题探测、文本分类、知识图谱构建等众多文本挖掘任务之中。

电网公司目前已经积累了大量的电力行业短文本语料，为了通过文本分析、挖掘技术对这些语料进行充分利用，挖掘其潜在的关联关系，当前迫切的需要一个较准确、高效的短文本关联关系挖掘模型。

通过word2vec对短文本获得词向量集，再通过词向量集转换为短文本的句向量，基于得到的句向量计算短文本的相似度，最后通过句法、命名实体特征进行纠偏修正。此方案的不足之处在于word2vec只能包含较弱的语境信息，对于一个词在不同语境的不同含义无法区别表征，所以通过其得到的句向量就存在一定的语义偏差，因此通常会出现判定为相似的两个短文本在词级别上比较相近，但实际语义差距较远(实际为不相似)的情况。

发明内容

为此，需要提供一种文本关联关系的判别方法，解决现有技术文本判断关联性准确率不高问题；

为实现上述目的，发明人提供了一种文本关联关系判别方法，包括如下步骤，

对输入的语料进行预处理，得到预处理文本，对预处理文本中的文本字段进行判断是否为超短文本，对其中的超短文本根据行业知识图谱进行改写，得到改写文本，将改写文本输入BERT模型进行训练、分析，得到模型输出的关联关系判别结果。

具体地，判断是否为超短文本具体包括步骤，设定长度阈值，若文本字段小于长度阈值，判断为超短为本。

可选地，所述行业知识图谱包括电力行业知识图谱。

具体地，所述超短文本根据行业知识图谱进行改写，具体包括步骤，对所述超短文本进行分词，得到分词结果，接着将所述分词结果作为查询词送入行业知识图谱进行查询，获得行业知识图谱中分词结果的对应的返回结果，将返回结果进行拼接得到改写文本。

一种文本关联关系判别存储介质,存储有计算机程序，所述计算机程序在被运行时执行包括如下步骤，

具体地，所述计算机程序在被运行时判断是否为超短文本具体执行包括步骤，设定长度阈值，若文本字段小于长度阈值，判断为超短为本。

具体地，所述行业知识图谱包括电力行业知识图谱。

优选地，所述计算机程序在被运行时执行超短文本根据行业知识图谱进行改写，

具体执行包括步骤，对所述超短文本进行分词，得到分词结果，接着将所述分词结果作为查询词送入行业知识图谱进行查询，获得行业知识图谱中分词结果的对应的返回结果，将返回结果进行拼接得到改写文本。

区别于现有技术，本发明可以结合超短文本改写技术进行短文本关联关系判断的方法。对比已有方案具有语义理解能力强、文本长度影响小、相关性判断准确率高的有益效果，综上所述，本发明解决了现有技术中对行业文本相关性的判断仍然不够准确的问题。

附图说明

图1为本发明一实施方式涉及的文本关联关系判别方法流程图。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

请参阅图1，一种文本关联关系判别方法，包括如下步骤，

S100对输入的语料进行预处理，得到预处理文本，

其中，语料预处理包括：对语料的头尾空格、换行等无意义字符进行清理；将多行的语料拼接成一行；将语料中繁体转换成简体等操作，该预处理步骤用于增强语料的可识别性，同时减少格式问题对文本表达一致性的影响。

这里的预处理文本还可以是经过分段或分节之后的文本字段的集合。

S102对预处理文本中的文本字段进行判断是否为超短文本，例如，设定长度阈值，若文本字段小于长度阈值，判断为超短文本。以设定的长度阈值为9为例，则文本字段长度为8以下的将会被判断为超短文本，进入下一步骤，而其他的文本字段可以不做处理。

S104超短文本改写

对其中的超短文本根据行业知识图谱进行改写，具体包括步骤，对所述超短文本进行分词，得到分词结果，接着将所述分词结果作为查询词送入行业知识图谱进行查询，获得行业知识图谱中分词结果的对应的返回结果，将返回结果进行拼接得到改写文本。现有技术中的超短文本存在许多简化表达、习惯表达、专业表达等多种非文本分析可以处理的问题，极有可能导致意义不明或难以被文本识别模型处理的问题。可以通过该步骤的超短文本改写，解决上述表意不明的问题。其中，行业知识图谱为记录行业内常用语义的习语字典，一些行业知识图谱可以提供予以查询及知识推理功能，利用上述功能可以达成超短文本的扩充或改写，我们以行业知识图谱为电网行业的专用知识图谱为例。当然还可以是化工、冶金、通信等各行业的知识图谱，都能够作为本例的替换。例如，“深化光伏云网应用”这个超短文本，首先经过分词得到“深化、光伏云网、应用”这三个词，接着分别将这三个词送入知识图谱进行查询，“深化”返回结果为空(说明图谱中没有“深化”对应的概念知识)，“光伏云网”返回“分布式光伏产业全业务、全流程综合服务”，“应用”返回结果为空。最后将返回结果进行拼接(返回为空的使用原词替代)得到“深化分布式光伏产业全业务、全流程综合服务应用”。通过上述方法利用知识图谱找到超短文本的对应行业释义，能够克服专用文档缩略词、常用词对于自动识别程序来说释义不清，过于精简的问题。更好地进行下述模型判断步骤

S106将改写文本输入模型进行训练、判断。

在具体的实施例中，我们采用BERT模型均进行训练、判断。BERT模型是2018年Google发布的论文《Pre-training of Deep Bidirectional Transformers for LanguageUnderstanding》中提到的预训练语言模型，根据Google针对公开数据集的测试，BERT模型刷新了自然语言处理的11项记录。BERT模型的训练逻辑非常简洁：它会先从数据集抽取两个句子，其中第二句是第一句的下一句的概率是50％，这样就能学习句子之间的关系。其次随机去除两个句子中的一些词，并要求模型预测这些词是什么，这样就能学习句子内部的关系。最后再将经过处理的句子传入大型Transformer模型，并通过两个损失函数同时学习上面两个目标就能完成训练。通过海量语料训练的BERT模型具备很强的语义理解能力，这里我们用它来作为关联关系判别的主要模型。

我们将改写后文本和需要判别关联关系的原文本文本组成文本对，输入BERT模型进行训练、分析，即模型的输入材料为若干改写文本，输出内容为原文本的文本组合。得到模型输出的关联关系判别结果。在一些实施例中，模型输出的结果是0～1之间的概率值，通常概率值大于等于0.5可以判别为相关，小于0.5可以判别为不相关。通过上述方式，本发明方案解决了现有技术中各行业习惯表述难以被识别，错误率高的特点，通过识别超短文本进行分词，扩充改写，最终得到的表述最为优选的模型输入语料。最终有效提高了文本间关联关系判别的准确率。

具体地，所述行业知识图谱包括电力行业知识图谱。

需要说明的是，尽管在本文中已经对上述各实施例进行了描述，但并非因此限制本发明的专利保护范围。因此，基于本发明的创新理念，对本文所述实施例进行的变更和修改，或利用本发明说明书及附图内容所作的等效结构或等效流程变换，直接或间接地将以上技术方案运用在其他相关的技术领域，均包括在本发明的专利保护范围之内。

Claims

1.一种文本关联关系判别方法，其特征在于，包括如下步骤，

对输入的语料进行预处理，得到预处理文本，对预处理文本中的文本字段进行判断是否为超短文本，对其中的超短文本根据行业知识图谱进行改写，得到改写文本，将改写文本输入BERT模型进行训练、分析，得到模型输出的关联关系判别结果,模型输出的结果是0～1之间的概率值，概率值大于等于0.5判别为相关，小于0.5判别为不相关；判断是否为超短文本具体包括步骤，设定长度阈值，若文本字段小于长度阈值，判断为超短文本；

所述超短文本根据行业知识图谱进行改写，具体包括步骤，对所述超短文本进行分词，得到分词结果，接着将所述分词结果作为查询词送入行业知识图谱进行查询，获得行业知识图谱中分词结果的对应的返回结果，将返回结果进行拼接得到改写文本；

所述行业知识图谱包括电力行业知识图谱。

2.一种文本关联关系判别存储介质，其特征在于，存储有计算机程序，所述计算机程序在被运行时执行包括如下步骤，

对输入的语料进行预处理，得到预处理文本，对预处理文本中的文本字段进行判断是否为超短文本，对其中的超短文本根据行业知识图谱进行改写，得到改写文本，将改写文本输入BERT模型进行训练、分析，得到模型输出的关联关系判别结果,模型输出的结果是0～1之间的概率值，概率值大于等于0.5判别为相关，小于0.5判别为不相关；所述计算机程序在被运行时判断是否为超短文本具体执行包括步骤，设定长度阈值，若文本字段小于长度阈值，判断为超短文本；

所述计算机程序在被运行时执行超短文本根据行业知识图谱进行改写，

具体执行包括步骤，对所述超短文本进行分词，得到分词结果，接着将所述分词结果作为查询词送入行业知识图谱进行查询，获得行业知识图谱中分词结果的对应的返回结果，将返回结果进行拼接得到改写文本；

所述行业知识图谱包括电力行业知识图谱。