CN111611399A

CN111611399A - 一种基于自然语言处理的资讯事件图谱化系统及方法

Info

Publication number: CN111611399A
Application number: CN202010297681.8A
Authority: CN
Inventors: 林康
Original assignee: Gf Securities Co ltd
Current assignee: Gf Securities Co ltd
Priority date: 2020-04-15
Filing date: 2020-04-15
Publication date: 2020-09-01

Abstract

本发明提供了一种基于自然语言处理的资讯事件图谱化系统及方法，所述系统包括资讯分类筛选模块、词性标注及语法解析模块、文本语法树构建模块、主谓宾分析提取模块、多句实体指代消解模块和知识图谱展现模块。通过实施本发明能够帮助分析人员更直观地了解资讯的关键信息，从而有利于提高分析人员的资讯阅读工作效率以及分析准确性。

Description

一种基于自然语言处理的资讯事件图谱化系统及方法

技术领域

本发明涉及知识图谱技术领域，尤其是涉及一种自然语言处理的资讯事件图谱化系统及方法。

背景技术

随着互联网技术的进步发展，资讯信息越来越发达，关于证券相关的资讯信息机构越来越多，从中能够获得的信息也逐日增加，但信息量也越来越大，越来越杂乱。哪些是最有用最相关的信息，需要我们通过慢慢的筛选和寻找再得出相应的准确信息。对于证券公司而言，有大量的投资顾问、行业研究员，他们专为广大投资者提供选股建议、买卖时机、热点分析等服务。投资顾问在为投资者提供投资建议的同时，必须遵守法律法规，为投资者提供恰当的建议。他们在工作的过程中，太多冗余的信息会导致他们错误的判断，怎样通过工具来减少这部分错误的产生，更清晰的知道资讯传达的重要内容，成为一个亟待解决的问题。

现有的新闻资讯涵盖面很广泛，分析人员现在阅读资讯的方式，都是肉眼凭借自己的知识储备去提取相关内容，分析得到某一个内容是否会对某个分析点有一定的影响。因此，分析人员通过现有技术进行资讯阅读和分析的工作效率低下，难以快速和准确的作出决策与判断。

发明内容

本发明实施例所要解决的技术问题在于，提供一种基于自然语言处理的资讯事件图谱化系统及方法，能够帮助分析人员更直观地了解资讯的关键信息，从而有利于提高分析人员的资讯阅读工作效率以及分析准确性。

为了解决上述技术问题，本发明实施例提供了一种基于自然语言处理的资讯事件图谱化系统，包括：

资讯分类筛选模块，用于根据预设的定制指标对接收到的资讯事件进行筛选得到待分析资讯数据；

词性标注及语法解析模块，用于对所述待分析资讯数据进行词性标注得到每个分词的词性标注信息，同时，对所述待分析资讯数据进行语法解析得到语法结构信息；

文本语法树构建模块，用于根据所述词性标注信息及语法结构信息将所述待分析资讯数据的每句文本构建成语法树；

主谓宾分析提取模块，用于根据每一所述语法树对文本中每一单句的主语、谓语及宾语进行提取，得到每句文本的主谓宾三元组数据；其中，每一所述主语及每一所述宾语分别对应为一个实体，每一所述谓语对应为一种关系；

多句实体指代消解模块，用于对本文所有实体进行关系分析，根据实体的共指关系将多个共指实体合并为同一个实体，继而基于所述主谓宾三元组数据以及合并后得到的实体，对文本进行重新融合得到精简后的三元组数据；

知识图谱展现模块，用于利用预设的可视化工具对所述精简后的三元组数据生成所述资讯事件的知识图谱并输出。

进一步地，所述资讯分类筛选模块具体包括：

长度指标筛选单元，用于根据预设的资讯篇章长度对接收到的资讯事件进行筛选得到符合长度要求的第一资讯数据；

关键词指标筛选单元，用于对所述第一资讯数据提取关键词并与预设的关键词分析范围进行匹配，筛选得到符合所述关键词范围的第二资讯数据；

相关性指标筛选单元，用于提取所述第二资讯数据的各部分文本内容的关键信息并将所述关键信息与预设的资讯标题进行相关性匹配，筛选得到符合所述资讯标题的相关性条件的所述待分析资讯数据。

进一步地，所述语法结构信息包括语义依存关系信息和句法结构信息。

进一步地，所述主谓宾分析提取模块具体包括：

主谓宾分析提取单元，用于根据每一所述语法树对文本中每一单句的主语、谓语及宾语进行提取，得到每句文本的初始三元组数据；

三元组数据过滤单元，用于分析所述每句文本的初始三元组数据的关键词语义，将不符合预设的文章关键词的初始三元组数据进行过滤，得到所述每句文本的主谓宾三元组数据。

进一步地，所述对本文所有实体进行关系分析，根据实体的共指关系将多个共指实体合并为同一个实体，具体为：

对文本中的句子按照单词个数组合划分为多个词组单元，按预设的概率计算规则标记每一所述词组单元的实体命名，并将各个命名后的实体进行分类，将同一类别下的共指实体合并为同一个实体。

为了解决相同的技术问题，本发明还提供了一种基于自然语言处理的资讯事件图谱化方法，包括：

根据预设的定制指标对接收到的资讯事件进行筛选得到待分析资讯数据；

对所述待分析资讯数据进行词性标注得到每个分词的词性标注信息，同时，对所述待分析资讯数据进行语法解析得到语法结构信息；

根据所述词性标注信息及语法结构信息将所述待分析资讯数据的每句文本构建成语法树；

根据每一所述语法树对文本中每一单句的主语、谓语及宾语进行提取，得到每句文本的主谓宾三元组数据；其中，每一所述主语及每一所述宾语分别对应为一个实体，每一所述谓语对应为一种关系；

对本文所有实体进行关系分析，根据实体的共指关系将多个共指实体合并为同一个实体，继而基于所述主谓宾三元组数据以及合并后得到的实体，对文本进行重新融合得到精简后的三元组数据；

利用预设的可视化工具对所述精简后的三元组数据生成所述资讯事件的知识图谱并输出。

进一步地，所述根据预设的定制指标对接收到的资讯事件进行筛选得到待分析资讯数据，具体包括：

根据预设的资讯篇章长度对接收到的资讯事件进行筛选得到符合长度要求的第一资讯数据；

对所述第一资讯数据提取关键词并与预设的关键词分析范围进行匹配，筛选得到符合所述关键词范围的第二资讯数据；

提取所述第二资讯数据的各部分文本内容的关键信息并将所述关键信息与预设的资讯标题进行相关性匹配，筛选得到符合所述资讯标题的相关性条件的所述待分析资讯数据。

进一步地，所述根据每一所述语法树对文本中每一单句的主语、谓语及宾语进行提取，得到每句文本的主谓宾三元组数据，具体包括：

根据每一所述语法树对文本中每一单句的主语、谓语及宾语进行提取，得到每句文本的初始三元组数据；

分析所述每句文本的初始三元组数据的关键词语义，将不符合预设的文章关键词的初始三元组数据进行过滤，得到所述每句文本的主谓宾三元组数据。

与现有技术相比，本发明具有如下有益效果：

本发明实施例提供了一种基于自然语言处理的资讯事件图谱化系统及方法，所述系统包括资讯分类筛选模块、词性标注及语法解析模块、文本语法树构建模块、主谓宾分析提取模块、多句实体指代消解模块和知识图谱展现模块。通过实施本发明能够帮助分析人员更直观地了解资讯的关键信息，从而有利于提高分析人员的资讯阅读工作效率以及分析准确性。

附图说明

图1是本发明一实施例提供的基于自然语言处理的资讯事件图谱化系统的结构示意图；

图2是本发明一实施例提供的基于自然语言处理的资讯事件图谱化方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，现有的自然语言处理工具都已经发展的很成熟了，对于中文内容部分的资讯分析，都已经达到非常成熟的阶段了。而主谓宾提取，也已经有很多效果很好的成果，但是对于复杂的句子，提取的效果仍然有提升的空间。

在指代消解任务部分，已经逐渐出现了很多深度学习的先进的方法。其中包括基于二元分类的方法、VSM相似度计算、以及逐渐引入的神经网络模型等，都已经能在英文文本上达到了很好的效果，但是在中文指代消解上仍然存在着很大的难度，仍然有很大的上升空间。

需要说明的是，现有的新闻资讯涵盖面很广泛，分析人员现在阅读资讯的方式，都是肉眼凭借自己的知识储备去提取相关内容，分析得到某一个内容是否会对某个分析点有一定的影响，而现有的技术中还没有出现全套流程完成资讯事件图谱化的系统，导致分析人员工作效率低下。为了更快的得到详细的关键信息，本发明通过机器阅读来解决这个资讯冗杂的问题。

请参见图1，本发明实施例提供了一种基于自然语言处理的资讯事件图谱化系统，包括：

资讯分类筛选模块1，用于根据预设的定制指标对接收到的资讯事件进行筛选得到待分析资讯数据。

在本发明实施例中，进一步地，所述资讯分类筛选模块1具体包括：

在本发明实施例中，所述资讯分类筛选模块1用于根据定制的指标完成上游数据资讯的分类及筛选，只筛选出我们算法能支持的资讯，对不符合长度，无匹配关键词等的咨询不使用模型进行处理，并返回提示。所述预设的定制指标包括：

1，资讯的长度；例如资讯的长度设定为300字，那么方法只处理300字长度以内的资讯，超过长度的返回提示，不做处理。

2，通过TextRank算法计算出来的关键词、关键句是否匹配到我们已有的分类种类；

3，资讯标题与资讯内容的相关性，提取出有用的关键词信息，由此可以判断出某部分资讯篇章内容是否符合我们的完整系统。例如，资讯内容有几个不同的内容，我们将跟资讯标题相关性高的作为我们关心的部分，来提取信息；相关性低的不进行分析。

词性标注及语法解析模块2，用于对所述待分析资讯数据进行词性标注得到每个分词的词性标注信息，同时，对所述待分析资讯数据进行语法解析得到语法结构信息；在本发明实施例中，进一步地，所述语法结构信息包括语义依存关系信息和句法结构信息。

在本发明实施例中，通过基础语义分析接口，输入为完整的资讯文本，输出为带有完整资讯的篇章的词性标注，并为下文的进一步分析做好基础信息标注的准备。说明：对一个句子进行词性标注会得出句子每个词的词性，词性标注是将语料库内单词的词性按其含义和上下文内容进行标记的文本数据处理技术，使用相关成熟工具。主要是通过StandfordCoreNLP Chinese对单篇资讯来进行对应的部分的标注，拥有每个词的额外标注信息以外我们能够更好地构成语法树来进行下一步的分析。

同时，分析词汇之间的语义依存关系和句法结构分析。句法结构分析能够明确句子的主干结构，语义依存关系分析能够识别词汇之间的从属、并列、递进关系。

文本语法树构建模块3，用于根据所述词性标注信息及语法结构信息将所述待分析资讯数据的每句文本构建成语法树。

在本发明实施例中，文本语法树构建模块3用于根据句子的语法结构，使用基于神经网络的语法分析技术，输出语法解析树，能够有助于提取出相关的主谓宾内容。

使用概率分布的上下文无关语法，基于一个常规语法规则，再基于每个规则对应的的相关概率。对于每个语法树，其中所有规则的概率的乘积作为语法树出现的概率。

主谓宾分析提取模块4，用于根据每一所述语法树对文本中每一单句的主语、谓语及宾语进行提取，得到每句文本的主谓宾三元组数据；其中，每一所述主语及每一所述宾语分别对应为一个实体，每一所述谓语对应为一种关系。

在本发明实施例中，进一步地，所述主谓宾分析提取模块4具体包括：

在本发明实施例中，主谓宾分析提取模块4用于根据语法树的标注结果，依照主谓宾构成的基本规则，提炼主语、谓语、宾语并对应为实体、关系、实体。从而转化为图谱中的三元组形式可视化展示。将篇章中的每个单句都提取出对应的主谓宾三元组。再根据关键词部分，保留有用的相关信息。

需要说明的是，每句话我们保留的三元组不相同，我们过滤掉一些和关键词语义区别较大的三元组，只保留符合这个文章关键词相关的三元组数据。

多句实体指代消解模块5，用于对本文所有实体进行关系分析，根据实体的共指关系将多个共指实体合并为同一个实体，继而基于所述主谓宾三元组数据以及合并后得到的实体，对文本进行重新融合得到精简后的三元组数据。

在本发明实施例中，进一步地，所述对本文所有实体进行关系分析，根据实体的共指关系将多个共指实体合并为同一个实体，具体为：

需要说明的是，通过端到端的神经指代消解，结合资讯的上下文，将实体和指称以及共指关系全部都分析出来，能够将共指的同一个实体的指称链接起来，合并为同一个实体，能够让知识图谱中孤立的三元组融合起来，更快的获得一个实体的更相关的信息。

需要说明的是，在具体实施例中，指代消解主要完成的是实体抽取和事件抽取两个部分，提取出实体后，可能会出现提取不准确的情况，结合起事件抽取的部分内容，能进一步补充完全指代消解的具体内容。得到最后的结果就是指代消解模块完成的输出结果。具体的例子：作为一个实体的公司名称，代词这家公司，它等，还有公司的缩写、简称。我们需要把这些统一成一个实体(保留一个)，无需在后面的步骤中展示其他词。

其中，实体抽取主要分成了以下步骤：实体指称识别，实体分类化与子分类化，命名实体识别。指称识别部分，使用到了端到端的神经网络模型，通过把句子切分成一个个span，span依次由一个单词组成、两个单词组成、三个单词组成等依次增加，span之间有重叠的单词，计算每个span是命名实体的概率。通过如此便可把所有可能的由多个单词组成的实体找出，并为其分类。同样的一个类别指的就是同样的共指实体，在最后指代消解的时候，就可以用同样的一个来作为替代的实体。

其中，事件抽取主要包括了以下步骤：事件指称识别与子分类化，事件指称属性计算，事件内容提要与角色识别。通过角色识别与内容提要这个部分，能够更好的确定，在提取出的实体的时候的关系更加准确，关系的方向就更加明确，能够发挥好事件中角色与角色之间的关系，来进一步帮助实体-关系-实体的抽取，在关键信息提取的时候能够结合起事件能够达到更好的效果。

最后的事件指代消解中，匹配上事件抽取的结果、实体指代消解的结果和实体抽取的结果，融合成我们模型最后的统一结果，并帮助到最后的图融合部分。

知识图谱展现模块6，用于利用预设的可视化工具对所述精简后的三元组数据生成所述资讯事件的知识图谱并输出。

所述知识图谱展现模块6用于根据上述的三元组数据以及指代消解的结果进行整理好后，使用neo4j可视化工具来创建该资讯的知识图谱，可视化的展示在知识图谱平台上，清晰的可视化资讯便利了分析人员对于关键内容的汲取。

需要说明的是，将资讯文本提取主要内容，并展示出来一个完整的知识图谱模式，能够方便更快的阅读到资讯内的相关内容。主要涉及的内容仍然是自然语言处理(NLP)上的细节问题，包括分词、词性标注、句法关系标注、命名实体识别、语法树的提取、上下文指代消解等。文本是非结构化的数据，转化成结构化的图谱形式的结构化数据，能让资讯以一种更加规范的形式展示。有了这样一个全栈式的解决方案，能方便了资讯提取重点的内容，方便分析员及时获得有用的相关内容。

本发明方案主要展现了一个完整的从资讯篇章到一个图谱的展示的过程。串联起来从非结构化的文本数据，转化为结构化的文本数据，并且展示到图谱中去。包括对资讯文章进行分类，对单篇章文本进行命名实体识别，句法关系标注以及语法树提取，单句主谓宾提取，篇章指代消解和多句的主谓宾融合等。在通过转化文本的同时，将信息资源很详细得转化成分析师易读易懂的模式，节省了大量的人力成本和机器成本。

可以理解的是，在大篇章的资讯碎片化时代，利用目前正火热上升的人工智能和深度学习在自然语言处理上的稳步进展，能够为证券分析师、为客户提供一个简要阅读资讯主要信息的快速途径，能够更快、更准确的把握来自资讯中有用的信息，对于事件的监测能有进一步的准确判断。能够掌握舆情事件的第一手资料，能够更快速的做出决策与判断。

与现有技术相比，本发明通过一个完善的自然语言分析框架，与知识图谱有机结合，解决了证券行业研究人员在获取资讯文章的主要信息的问题，能够更快的对于舆情影响各种预测作出更提前的判断，给公司节省了很大的人力成本。

需要说明的是，本发明方案的关键点在于，阅读长篇章的资讯时会消耗大量的人力，人工抽取资讯篇章中的主要内容费时费力不太友好，从而提出该方法以后，能够通过机器阅读理解的方式，抽取出对于证券从业人员能够更加便捷直观的得到有用的直观信息，能够提高工作效率和分析准确性，并能够提前预知舆情是否会产生一定的影响。本发明创新性地提出了一种全套系统的从资讯非结构化的文本数据转化成结构化数据的图谱数据的方法。能够解决分析人员对于资讯信息关键信息把握更准确的问题。

为了解决相同的技术问题，本发明还提供了一种基于自然语言处理的资讯事件图谱化方法，包括步骤：

S1、根据预设的定制指标对接收到的资讯事件进行筛选得到待分析资讯数据；

S2、对所述待分析资讯数据进行词性标注得到每个分词的词性标注信息，同时，对所述待分析资讯数据进行语法解析得到语法结构信息；

S3、根据所述词性标注信息及语法结构信息将所述待分析资讯数据的每句文本构建成语法树；

S4、根据每一所述语法树对文本中每一单句的主语、谓语及宾语进行提取，得到每句文本的主谓宾三元组数据；其中，每一所述主语及每一所述宾语分别对应为一个实体，每一所述谓语对应为一种关系；

S5、对本文所有实体进行关系分析，根据实体的共指关系将多个共指实体合并为同一个实体，继而基于所述主谓宾三元组数据以及合并后得到的实体，对文本进行重新融合得到精简后的三元组数据；

S6、利用预设的可视化工具对所述精简后的三元组数据生成所述资讯事件的知识图谱并输出。

可以理解的是上述方法项实施例，是与本发明系统项实施例相对应的，本发明实施例提供的一种基于自然语言处理的资讯事件图谱化方法，可以实现本发明任意一项系统项实施例提供的基于自然语言处理的资讯事件图谱化系统所带来的技术效果。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种基于自然语言处理的资讯事件图谱化系统，其特征在于，包括：

2.根据权利要求1所述的基于自然语言处理的资讯事件图谱化系统，其特征在于，所述资讯分类筛选模块具体包括：

3.根据权利要求1所述的基于自然语言处理的资讯事件图谱化系统，其特征在于，所述语法结构信息包括语义依存关系信息和句法结构信息。

4.根据权利要求1所述的基于自然语言处理的资讯事件图谱化系统，其特征在于，所述主谓宾分析提取模块具体包括：

5.根据权利要求1所述的基于自然语言处理的资讯事件图谱化系统，其特征在于，所述对本文所有实体进行关系分析，根据实体的共指关系将多个共指实体合并为同一个实体，具体为：

6.一种基于自然语言处理的资讯事件图谱化方法，其特征在于，包括：

7.根据权利要求6所述的基于自然语言处理的资讯事件图谱化方法，其特征在于，所述根据预设的定制指标对接收到的资讯事件进行筛选得到待分析资讯数据，具体包括：

8.根据权利要求6所述的基于自然语言处理的资讯事件图谱化方法，其特征在于，所述语法结构信息包括语义依存关系信息和句法结构信息。

9.根据权利要求6所述的基于自然语言处理的资讯事件图谱化方法，其特征在于，所述根据每一所述语法树对文本中每一单句的主语、谓语及宾语进行提取，得到每句文本的主谓宾三元组数据，具体包括：

10.根据权利要求6所述的基于自然语言处理的资讯事件图谱化方法，其特征在于，所述对本文所有实体进行关系分析，根据实体的共指关系将多个共指实体合并为同一个实体，具体为：