CN111090755B - 一种文本关联关系判别方法及存储介质 - Google Patents

一种文本关联关系判别方法及存储介质 Download PDF

Info

Publication number
CN111090755B
CN111090755B CN201911197172.1A CN201911197172A CN111090755B CN 111090755 B CN111090755 B CN 111090755B CN 201911197172 A CN201911197172 A CN 201911197172A CN 111090755 B CN111090755 B CN 111090755B
Authority
CN
China
Prior art keywords
text
ultra
knowledge graph
short
industry knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911197172.1A
Other languages
English (en)
Other versions
CN111090755A (zh
Inventor
张垚
庄莉
梁懿
苏江文
王秋琳
彭放
李君婷
丁勇
王端瑞
尚颖
刘瑞芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Big Data Center Of State Grid Corp Of China
State Grid Corp of China SGCC
State Grid Information and Telecommunication Co Ltd
State Grid Fujian Electric Power Co Ltd
State Grid Beijing Electric Power Co Ltd
Fujian Yirong Information Technology Co Ltd
Great Power Science and Technology Co of State Grid Information and Telecommunication Co Ltd
Original Assignee
Big Data Center Of State Grid Corp Of China
State Grid Corp of China SGCC
State Grid Information and Telecommunication Co Ltd
State Grid Fujian Electric Power Co Ltd
State Grid Beijing Electric Power Co Ltd
Fujian Yirong Information Technology Co Ltd
Great Power Science and Technology Co of State Grid Information and Telecommunication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Big Data Center Of State Grid Corp Of China, State Grid Corp of China SGCC, State Grid Information and Telecommunication Co Ltd, State Grid Fujian Electric Power Co Ltd, State Grid Beijing Electric Power Co Ltd, Fujian Yirong Information Technology Co Ltd, Great Power Science and Technology Co of State Grid Information and Telecommunication Co Ltd filed Critical Big Data Center Of State Grid Corp Of China
Priority to CN201911197172.1A priority Critical patent/CN111090755B/zh
Publication of CN111090755A publication Critical patent/CN111090755A/zh
Application granted granted Critical
Publication of CN111090755B publication Critical patent/CN111090755B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Economics (AREA)
  • Public Health (AREA)
  • Marketing (AREA)
  • Animal Behavior & Ethology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Artificial Intelligence (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种文本关联关系判别方法及存储介质,其中方法包括如下步骤,对输入的语料进行预处理,得到预处理文本,对预处理文本中的文本字段进行判断是否为超短文本,对其中的超短文本根据行业知识图谱进行改写,得到改写文本,将改写文本输入BERT模型进行训练、分析,得到模型输出的关联关系判别结果。本发明可以结合超短文本改写技术进行短文本关联关系判断的方法。对比已有方案具有语义理解能力强、文本长度影响小、相关性判断准确率高的有益效果,综上所述,本发明解决了现有技术中对行业文本相关性的判断仍然不够准确的问题。

Description

一种文本关联关系判别方法及存储介质
技术领域
本发明涉及机器学习领域,尤其涉及一种文本关联关系的智能判别方法。
背景技术
随着大数据时代的兴起,短文本已经成为一种越来越常见的文本数据,例如文章摘要、新闻标题、公文标题、微博、微信、客户评论等等,这些数据之间存在着丰富的语义关联,如何建立一种高效的关联关系挖掘模型,并从大量的短文本数据集中挖掘出潜在的语义信息已经成为众多应用的基石。通过关联关系挖掘模型,我们能获得海量短文本间的潜在关联关系,从而可以应用到如搜索、兴趣分析、内容推荐、主题探测、文本分类、知识图谱构建等众多文本挖掘任务之中。
电网公司目前已经积累了大量的电力行业短文本语料,为了通过文本分析、挖掘技术对这些语料进行充分利用,挖掘其潜在的关联关系,当前迫切的需要一个较准确、高效的短文本关联关系挖掘模型。
通过word2vec对短文本获得词向量集,再通过词向量集转换为短文本的句向量,基于得到的句向量计算短文本的相似度,最后通过句法、命名实体特征进行纠偏修正。此方案的不足之处在于word2vec只能包含较弱的语境信息,对于一个词在不同语境的不同含义无法区别表征,所以通过其得到的句向量就存在一定的语义偏差,因此通常会出现判定为相似的两个短文本在词级别上比较相近,但实际语义差距较远(实际为不相似)的情况。
发明内容
为此,需要提供一种文本关联关系的判别方法,解决现有技术文本判断关联性准确率不高问题;
为实现上述目的,发明人提供了一种文本关联关系判别方法,包括如下步骤,
对输入的语料进行预处理,得到预处理文本,对预处理文本中的文本字段进行判断是否为超短文本,对其中的超短文本根据行业知识图谱进行改写,得到改写文本,将改写文本输入BERT模型进行训练、分析,得到模型输出的关联关系判别结果。
具体地,判断是否为超短文本具体包括步骤,设定长度阈值,若文本字段小于长度阈值,判断为超短为本。
可选地,所述行业知识图谱包括电力行业知识图谱。
具体地,所述超短文本根据行业知识图谱进行改写,具体包括步骤,对所述超短文本进行分词,得到分词结果,接着将所述分词结果作为查询词送入行业知识图谱进行查询,获得行业知识图谱中分词结果的对应的返回结果,将返回结果进行拼接得到改写文本。
一种文本关联关系判别存储介质,存储有计算机程序,所述计算机程序在被运行时执行包括如下步骤,
对输入的语料进行预处理,得到预处理文本,对预处理文本中的文本字段进行判断是否为超短文本,对其中的超短文本根据行业知识图谱进行改写,得到改写文本,将改写文本输入BERT模型进行训练、分析,得到模型输出的关联关系判别结果。
具体地,所述计算机程序在被运行时判断是否为超短文本具体执行包括步骤,设定长度阈值,若文本字段小于长度阈值,判断为超短为本。
具体地,所述行业知识图谱包括电力行业知识图谱。
优选地,所述计算机程序在被运行时执行超短文本根据行业知识图谱进行改写,
具体执行包括步骤,对所述超短文本进行分词,得到分词结果,接着将所述分词结果作为查询词送入行业知识图谱进行查询,获得行业知识图谱中分词结果的对应的返回结果,将返回结果进行拼接得到改写文本。
区别于现有技术,本发明可以结合超短文本改写技术进行短文本关联关系判断的方法。对比已有方案具有语义理解能力强、文本长度影响小、相关性判断准确率高的有益效果,综上所述,本发明解决了现有技术中对行业文本相关性的判断仍然不够准确的问题。
附图说明
图1为本发明一实施方式涉及的文本关联关系判别方法流程图。
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
请参阅图1,一种文本关联关系判别方法,包括如下步骤,
S100对输入的语料进行预处理,得到预处理文本,
其中,语料预处理包括:对语料的头尾空格、换行等无意义字符进行清理;将多行的语料拼接成一行;将语料中繁体转换成简体等操作,该预处理步骤用于增强语料的可识别性,同时减少格式问题对文本表达一致性的影响。
这里的预处理文本还可以是经过分段或分节之后的文本字段的集合。
S102对预处理文本中的文本字段进行判断是否为超短文本,例如,设定长度阈值,若文本字段小于长度阈值,判断为超短文本。以设定的长度阈值为9为例,则文本字段长度为8以下的将会被判断为超短文本,进入下一步骤,而其他的文本字段可以不做处理。
S104超短文本改写
对其中的超短文本根据行业知识图谱进行改写,具体包括步骤,对所述超短文本进行分词,得到分词结果,接着将所述分词结果作为查询词送入行业知识图谱进行查询,获得行业知识图谱中分词结果的对应的返回结果,将返回结果进行拼接得到改写文本。现有技术中的超短文本存在许多简化表达、习惯表达、专业表达等多种非文本分析可以处理的问题,极有可能导致意义不明或难以被文本识别模型处理的问题。可以通过该步骤的超短文本改写,解决上述表意不明的问题。其中,行业知识图谱为记录行业内常用语义的习语字典,一些行业知识图谱可以提供予以查询及知识推理功能,利用上述功能可以达成超短文本的扩充或改写,我们以行业知识图谱为电网行业的专用知识图谱为例。当然还可以是化工、冶金、通信等各行业的知识图谱,都能够作为本例的替换。例如,“深化光伏云网应用”这个超短文本,首先经过分词得到“深化、光伏云网、应用”这三个词,接着分别将这三个词送入知识图谱进行查询,“深化”返回结果为空(说明图谱中没有“深化”对应的概念知识),“光伏云网”返回“分布式光伏产业全业务、全流程综合服务”,“应用”返回结果为空。最后将返回结果进行拼接(返回为空的使用原词替代)得到“深化分布式光伏产业全业务、全流程综合服务应用”。通过上述方法利用知识图谱找到超短文本的对应行业释义,能够克服专用文档缩略词、常用词对于自动识别程序来说释义不清,过于精简的问题。更好地进行下述模型判断步骤
S106将改写文本输入模型进行训练、判断。
在具体的实施例中,我们采用BERT模型均进行训练、判断。BERT模型是2018年Google发布的论文《Pre-training of Deep Bidirectional Transformers for LanguageUnderstanding》中提到的预训练语言模型,根据Google针对公开数据集的测试,BERT模型刷新了自然语言处理的11项记录。BERT模型的训练逻辑非常简洁:它会先从数据集抽取两个句子,其中第二句是第一句的下一句的概率是50%,这样就能学习句子之间的关系。其次随机去除两个句子中的一些词,并要求模型预测这些词是什么,这样就能学习句子内部的关系。最后再将经过处理的句子传入大型Transformer模型,并通过两个损失函数同时学习上面两个目标就能完成训练。通过海量语料训练的BERT模型具备很强的语义理解能力,这里我们用它来作为关联关系判别的主要模型。
我们将改写后文本和需要判别关联关系的原文本文本组成文本对,输入BERT模型进行训练、分析,即模型的输入材料为若干改写文本,输出内容为原文本的文本组合。得到模型输出的关联关系判别结果。在一些实施例中,模型输出的结果是0~1之间的概率值,通常概率值大于等于0.5可以判别为相关,小于0.5可以判别为不相关。通过上述方式,本发明方案解决了现有技术中各行业习惯表述难以被识别,错误率高的特点,通过识别超短文本进行分词,扩充改写,最终得到的表述最为优选的模型输入语料。最终有效提高了文本间关联关系判别的准确率。
一种文本关联关系判别存储介质,存储有计算机程序,所述计算机程序在被运行时执行包括如下步骤,
对输入的语料进行预处理,得到预处理文本,对预处理文本中的文本字段进行判断是否为超短文本,对其中的超短文本根据行业知识图谱进行改写,得到改写文本,将改写文本输入BERT模型进行训练、分析,得到模型输出的关联关系判别结果。
具体地,所述计算机程序在被运行时判断是否为超短文本具体执行包括步骤,设定长度阈值,若文本字段小于长度阈值,判断为超短为本。
具体地,所述行业知识图谱包括电力行业知识图谱。
优选地,所述计算机程序在被运行时执行超短文本根据行业知识图谱进行改写,
具体执行包括步骤,对所述超短文本进行分词,得到分词结果,接着将所述分词结果作为查询词送入行业知识图谱进行查询,获得行业知识图谱中分词结果的对应的返回结果,将返回结果进行拼接得到改写文本。
需要说明的是,尽管在本文中已经对上述各实施例进行了描述,但并非因此限制本发明的专利保护范围。因此,基于本发明的创新理念,对本文所述实施例进行的变更和修改,或利用本发明说明书及附图内容所作的等效结构或等效流程变换,直接或间接地将以上技术方案运用在其他相关的技术领域,均包括在本发明的专利保护范围之内。

Claims (2)

1.一种文本关联关系判别方法,其特征在于,包括如下步骤,
对输入的语料进行预处理,得到预处理文本,对预处理文本中的文本字段进行判断是否为超短文本,对其中的超短文本根据行业知识图谱进行改写,得到改写文本,将改写文本输入BERT模型进行训练、分析,得到模型输出的关联关系判别结果,模型输出的结果是0~1之间的概率值,概率值大于等于0.5判别为相关,小于0.5判别为不相关;判断是否为超短文本具体包括步骤,设定长度阈值,若文本字段小于长度阈值,判断为超短文本;
所述超短文本根据行业知识图谱进行改写,具体包括步骤,对所述超短文本进行分词,得到分词结果,接着将所述分词结果作为查询词送入行业知识图谱进行查询,获得行业知识图谱中分词结果的对应的返回结果,将返回结果进行拼接得到改写文本;
所述行业知识图谱包括电力行业知识图谱。
2.一种文本关联关系判别存储介质,其特征在于,存储有计算机程序,所述计算机程序在被运行时执行包括如下步骤,
对输入的语料进行预处理,得到预处理文本,对预处理文本中的文本字段进行判断是否为超短文本,对其中的超短文本根据行业知识图谱进行改写,得到改写文本,将改写文本输入BERT模型进行训练、分析,得到模型输出的关联关系判别结果,模型输出的结果是0~1之间的概率值,概率值大于等于0.5判别为相关,小于0.5判别为不相关;所述计算机程序在被运行时判断是否为超短文本具体执行包括步骤,设定长度阈值,若文本字段小于长度阈值,判断为超短文本;
所述计算机程序在被运行时执行超短文本根据行业知识图谱进行改写,
具体执行包括步骤,对所述超短文本进行分词,得到分词结果,接着将所述分词结果作为查询词送入行业知识图谱进行查询,获得行业知识图谱中分词结果的对应的返回结果,将返回结果进行拼接得到改写文本;
所述行业知识图谱包括电力行业知识图谱。
CN201911197172.1A 2019-11-29 2019-11-29 一种文本关联关系判别方法及存储介质 Active CN111090755B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911197172.1A CN111090755B (zh) 2019-11-29 2019-11-29 一种文本关联关系判别方法及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911197172.1A CN111090755B (zh) 2019-11-29 2019-11-29 一种文本关联关系判别方法及存储介质

Publications (2)

Publication Number Publication Date
CN111090755A CN111090755A (zh) 2020-05-01
CN111090755B true CN111090755B (zh) 2023-04-04

Family

ID=70393190

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911197172.1A Active CN111090755B (zh) 2019-11-29 2019-11-29 一种文本关联关系判别方法及存储介质

Country Status (1)

Country Link
CN (1) CN111090755B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434167B (zh) * 2021-01-26 2021-04-20 支付宝(杭州)信息技术有限公司 一种信息识别方法及装置
CN112926309B (zh) * 2021-05-11 2021-08-31 北京智源人工智能研究院 一种安全信息判别方法、装置和电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106569999A (zh) * 2016-11-09 2017-04-19 武汉泰迪智慧科技有限公司 多粒度短文本语义相似度比较方法及系统
CN109800308A (zh) * 2019-01-22 2019-05-24 四川长虹电器股份有限公司 一种基于词性和模糊模式识别组合的短文本分类方法
CN109858004A (zh) * 2019-02-12 2019-06-07 四川无声信息技术有限公司 文本改写方法、装置及电子设备
CN110046252A (zh) * 2019-03-29 2019-07-23 北京工业大学 一种基于注意力机制神经网络与知识图谱的医疗文本分级方法
JP2019526131A (ja) * 2016-07-29 2019-09-12 ロヴィ ガイズ, インコーポレイテッド 静的ナレッジグラフおよび時間的ナレッジグラフに基づいて用語の曖昧性を除去するためのシステムおよび方法
CN110287494A (zh) * 2019-07-01 2019-09-27 济南浪潮高新科技投资发展有限公司 一种基于深度学习bert算法的短文本相似匹配的方法
CN110442733A (zh) * 2019-08-08 2019-11-12 恒生电子股份有限公司 一种主题生成方法、装置和设备及介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10031967B2 (en) * 2016-02-29 2018-07-24 Rovi Guides, Inc. Systems and methods for using a trained model for determining whether a query comprising multiple segments relates to an individual query or several queries

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019526131A (ja) * 2016-07-29 2019-09-12 ロヴィ ガイズ, インコーポレイテッド 静的ナレッジグラフおよび時間的ナレッジグラフに基づいて用語の曖昧性を除去するためのシステムおよび方法
CN106569999A (zh) * 2016-11-09 2017-04-19 武汉泰迪智慧科技有限公司 多粒度短文本语义相似度比较方法及系统
CN109800308A (zh) * 2019-01-22 2019-05-24 四川长虹电器股份有限公司 一种基于词性和模糊模式识别组合的短文本分类方法
CN109858004A (zh) * 2019-02-12 2019-06-07 四川无声信息技术有限公司 文本改写方法、装置及电子设备
CN110046252A (zh) * 2019-03-29 2019-07-23 北京工业大学 一种基于注意力机制神经网络与知识图谱的医疗文本分级方法
CN110287494A (zh) * 2019-07-01 2019-09-27 济南浪潮高新科技投资发展有限公司 一种基于深度学习bert算法的短文本相似匹配的方法
CN110442733A (zh) * 2019-08-08 2019-11-12 恒生电子股份有限公司 一种主题生成方法、装置和设备及介质

Also Published As

Publication number Publication date
CN111090755A (zh) 2020-05-01

Similar Documents

Publication Publication Date Title
CN110298033B (zh) 关键词语料标注训练提取系统
CN110188347B (zh) 一种面向文本的知识主题间认知关系抽取方法
CN109726274B (zh) 问题生成方法、装置及存储介质
CN106649603B (zh) 一种基于网页文本数据情感分类的指定信息推送方法
CN108255813B (zh) 一种基于词频-逆文档与crf的文本匹配方法
CN107832229A (zh) 一种基于nlp的系统测试用例自动生成方法
García et al. A lexicon based sentiment analysis retrieval system for tourism domain
CN113282955B (zh) 隐私政策中隐私信息提取方法、系统、终端及介质
CN111061882A (zh) 一种知识图谱构建方法
CN105912645A (zh) 一种智能问答方法及装置
CN113312922B (zh) 一种改进的篇章级三元组信息抽取方法
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN105787134A (zh) 智能问答方法、装置及系统
CN111090755B (zh) 一种文本关联关系判别方法及存储介质
CN112380866A (zh) 一种文本话题标签生成方法、终端设备及存储介质
CN110321434A (zh) 一种基于词义消歧卷积神经网络的文本分类方法
US20220365956A1 (en) Method and apparatus for generating patent summary information, and electronic device and medium
CN104317882A (zh) 一种决策级中文分词融合方法
CN115374786A (zh) 实体和关系联合抽取方法及装置、存储介质和终端
CN111814476A (zh) 一种实体关系的抽取方法和装置
CN111178080A (zh) 一种基于结构化信息的命名实体识别方法及系统
CN115146062A (zh) 融合专家推荐与文本聚类的智能事件分析方法和系统
CN105389303A (zh) 一种异源语料自动融合方法
CN110889274B (zh) 信息质量评估方法、装置、设备及计算机可读存储介质
CN101271448A (zh) 汉语基本名词短语的识别及其规则的生成方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant