CN111666767B

CN111666767B - 资料识别方法及装置、电子设备、存储介质

Info

Publication number: CN111666767B
Application number: CN202010520924.XA
Authority: CN
Inventors: 张发恩; 姜勇越
Original assignee: Innovation Wisdom Shanghai Technology Co ltd
Current assignee: Innovation Wisdom Shanghai Technology Co ltd
Priority date: 2020-06-10
Filing date: 2020-06-10
Publication date: 2023-07-18
Anticipated expiration: 2040-06-10
Also published as: CN111666767A

Abstract

本申请提供一种资料识别方法及装置、电子设备、存储介质，该方法包括：从文本中筛选出符合预设规则的句子，获得预设目标；通过命名实体识别和依存句法分析从预设目标的上下文提取预设目标的第一主语；将预设目标作为已构建的分类模型的输入，获得分类模型输出的预设目标的第二主语；根据第一主语和第二主语，得到预设目标的正确主语。从而可以从存在大量实体的文本中获取指定内容的主语，将该方法应用于观点提出者的识别时，可以提高观点提出者的识别准确率，扩展了系统功能。

Description

资料识别方法及装置、电子设备、存储介质

技术领域

本申请涉及数据处理技术领域，特别涉及一种资料识别方法及装置、电子设备、计算机可读存储介质。

背景技术

观点是实体提出的对某个实体或者某个实体的属性的看法，因此属于主观内容，即便是中立的情感，也是实体通过主观的判断给出的观点。观点抽取是指从原始的新闻文本中，识别表达任务观点的句子，并从中抽取出观点要素，如观点持有者、观点评价的对象、观点发表的时间、观点提出的地点以及观点持有者对评价对象的情感态度等，也就是说需要确定一篇文档中哪些是观点、哪些实体在什么时间和地点发表了这些观点，然后再进行观点内容的挖掘。

目前观点抽取主要集中在确定表达观点的实体前提下，对评论性的语言进行内容的挖掘，抽取属性(例如酒店的服务、电脑的质量)、评价词和情感极性判断。实际上这个任务是真正的观点抽取的后续任务，可见，目前主要关注的是观点内容的挖掘，无法从存在大量实体的文本中确定表达观点的实体，导致系统功能受限。

发明内容

本申请实施例提供了资料识别方法，用以从存在大量实体的文本中获取指定内容的主语，扩展系统功能。

本申请实施例提供了一种资料识别方法，包括：

从文本中筛选出符合预设规则的句子，获得预设目标；

通过命名实体识别和依存句法分析从所述预设目标的上下文提取所述预设目标的第一主语；

将所述预设目标作为已构建的分类模型的输入，获得所述分类模型输出的所述预设目标的第二主语；

根据所述第一主语和所述第二主语，得到所述预设目标的正确主语。

在一实施例中，所述预设目标为观点，所述从文本中筛选出符合预设规则的句子，获得预设目标，包括：

按照表达观点的标准句式，从所述文本中提取与所述标准句式匹配的句子。

在一实施例中，在所述按照表达观点的标准句式，从所述文本中提取与所述标准句式匹配的句子之后，所述方法还包括：

根据已构建的情感词库，对所述文本中剩余的句子进行扫描，筛选出包含所述情感词库中情感词的句子。

在一实施例中，所述方法还包括：

通过命名实体识别和规则判断，从所述文本中筛选出所述观点的提出地点。

在一实施例中，所述方法还包括：

根据已构建的时间词库，从所述文本中提取所述观点的相对提出时间；

根据所述文本的发布时间，对所述相对提出时间进行换算，获得所述观点的绝对提出时间。

在一实施例中，在所述根据所述第一主语和所述第二主语，得到所述预设目标的正确主语之后，所述方法还包括：

将所述观点和所述观点的正确主语进行关联存储。

通过计算所述文本与不同事件的语义相似度，确定所述文本归属的目标事件；

将所述观点以及所述观点的正确主语与所述目标事件关联存储。

本申请实施例还提供了一种资料识别装置，包括：

目标筛选模块，用于从文本中筛选出符合预设规则的句子，获得预设目标；

主语分析模块，用于通过命名实体识别和依存句法分析从所述预设目标的上下文提取所述预设目标的第一主语；

主语分类模块，用于将所述预设目标作为已构建的分类模型的输入，获得所述分类模型输出的所述预设目标的第二主语；

主语确定模块，用于根据所述第一主语和所述第二主语，得到所述预设目标的正确主语。

本申请实施例还提供了一种电子设备，所述电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行上述资料识别方法。

本申请实施例还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序可由处理器执行以完成上述资料识别方法。

本申请上述实施例提供的技术方案，可以从文本中筛选出符合预设规则的预设目标，并通过命名实体识别以及依存句法分析，可以从文本中确定预设目标的第一主语。由于依存句法分析可能存在错误，进而通过分类模型识别预设目标的第二主语，结合第一主语和第二主语，确定预设目标的正确主语。从而可以从存在大量实体的文本中获取指定内容的主语，将该方法应用于观点提出者的识别时，可以提高观点提出者的识别准确率，扩展了系统功能。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍。

图1为本申请一实施例提供的资料识别方法的应用场景示意图。

图2是本申请一实施例提供的资料识别方法的流程示意图；

图3是本申请另一实施例提供的资料识别方法的流程示意图；

图4是本申请实施例提供的资料识别装置的框架示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

图1为本申请实施例提供的资料识别方法的应用场景示意图。如图1所示，该应用场景包括服务端110，服务端110可以采用本申请实施例提供的方法从新闻或评论性文章中获取不同观点对应的提出者。服务端110可以是服务器、服务器集群或者云计算中心。

在一实施例中，该应用场景还可以包括多个客户端120，服务端110可以从多个客户端120采集新闻或评论性文章。客户端120可以是运行应用程序的个人电脑(personalcomputer，PC)、平板电脑、智能手机、个人数字助理(personal digital assistant，PDA)等。

本申请实施例还提供了一种电子设备。该电子设备可以是图1所示的服务端110。如图1所示，服务端110可以包括处理器111；用于存储处理器111可执行指令的存储器112；其中，该处理器111被配置为执行本申请提供的资料识别方法。

存储器112可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read Only Memory，简称EPROM)，可编程只读存储器(Programmable Red-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。

本申请还提供了一种计算机可读存储介质，存储介质存储有计算机程序，计算机程序可由处理器111执行以完成本申请实施例提供的资料识别方法。

图2是本申请实施例提供的资料识别方法的流程示意图，如图2所示，该方法包括以下步骤S210-步骤S240。

步骤S210：从文本中筛选出符合预设规则的句子，获得预设目标。

其中，符合预设规则的句子可以是符合标准句式的句子、包含情感词的句子或处于引号之间且字数较多的句子。根据实际场景，举例来说，“实体+动作词”可以认为是标准句式。举例来说，“喜欢”、“讨厌”可以认为是情感词。

预设目标是指符合预设规则的句子。在一实施例中，预设目标可以是观点。观点是实体提出的对某个实体或者某个实体的属性的看法，因此属于主观内容，即便是中立的情感，也是实体通过主观的判断给出的观点。

在一实施例中，观点可以通过以下方式获得：

(1)按照表达观点的标准句式，从文本中提取与标准句式匹配的句子。

举例来说，“实体+说”，“实体+称”，“实体+表示”、“实体+认为”等包含实体和可用来形容讲话的词，可以认为是表达观点的标准句式。如果某个句子中出现实体或指示代词以及可用来形容讲话的词，如“说”，“称”、“表示”以及“讲”等，可以认为此句子与标准句式匹配，该句子可以认为是观点。

(2)从文本中提取处于引号之间且字数大于阈值的句子。

句子中出现引号，并且引号中间的内容较多(例如引号中间的字数大于5个)，一般都是某个实体说的话，也就是观点。故可以通过查找引号以及统计引号之间字数的方式，找出文本中的观点。

(3)根据已构建的情感词库，对所述文本中剩余的句子进行扫描，筛选出包含所述情感词库中情感词的句子。

通过上述(1)和(2)可以筛选出明显是观点的句子，但是尚存一些句子无法通过标准句式和引号判断是否是观点，例如“李四不愿意就不当言论向张三道歉”，这句话根据标准句式和引号(原文无引号)就不能判断。故可以集合所有能够表达情感的词来构建情感词库，用该词库对剩余的句子进行扫描，筛选出包含情感词和不包含情感词的句子，将不包含情感词的句子认为是客观内容，将包含情感词的句子认为是主观内容，也就是观点。

在一实施例中，文本可以是新闻，由于新闻种类较多，有社情、商情、政情等，情感词库可以尽可能多的包含各领域的情感词，基于标准句式、引号和情感词库可以大幅度的提高观点筛选的准确率。

步骤S220：通过命名实体识别和依存句法分析从所述预设目标的上下文提取所述预设目标的第一主语。

其中，命名实体识别(Named Entity Recognition，简称NER)，又称作“专名识别”，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。常见方式有，基于规则的方法、基于特征模板的方法以及基于神经网络的方法。依存句法分析(Dependency Parsing,DP)是指通过分析语言单位内成分之间的依存关系揭示其句法结构，从而确定句子中哪个是主语、哪个是宾语、哪个是谓语等。目前常见方式有，基于图的依存句法分析方法，基于转移的依存句法分析方法。

第一主语是指通过依存句法分析确定的预设目标对应的主语。举例来说，“张三就小区失窃事情致电邻居李四，提议‘共同维护小区安全’”，这句话中，“共同维护小区安全”符合预设规则(处于引号之间的句子)，属于预设目标。这句话中通过命名实体识别可以识别出“张三”和“李四”两个实体，但是根据实体与预设目标之间的距离来判断的话就会认为这个观点属于“李四”，但实际上是属于“张三”，故本申请实施例可以借助依存句法分析来判断该观点的提出者。通过依存句法分析可以得到“张三”是主语，“李四”是宾语，“致电”是谓语，那么根据依存句法分析是可以判断出“张三”是观点的提出者，即第一主语。

但是，通过命名实体识别和依存句法分析也会出现明显错误的时候，例如“就承认小区失窃这一点，物业公司不同意张三的想法”，可以看出“承认小区失窃”应该是“张三”观点，而不是“物业公司”，但是根据依存句法分析得到的结果必然会将“承认小区失窃”这一观点归到“物业公司”那里。故通过依存句法分析确定的预设目标的第一主语可以做进一步查证。

步骤S230：将所述预设目标作为已构建的分类模型的输入，获得所述分类模型输出的所述预设目标的第二主语。

在一实施例中，可以利用分类器训练过程，通过训练数据训练出分类模型。在一实施例中，可以选择条件随机场(CRF)、最大熵模型、BiLSTM等机器学习和神经网络模型进行分类模型的训练，训练数据的格式可以是：将预设目标和预设目标的来源作为特征，将预设目标的主语作为标签，例如：

在分类模型训练完成后，可以将新获得的预设目标以及预设目标的来源作为分类模型的输入，分类模型的输出可以认为是预设目标的第二主语。第二主语是指通过分类模型确定的预设目标对应的主语，从而与第一主语进行区分。

步骤S240：根据所述第一主语和所述第二主语，得到所述预设目标的正确主语。

假设预设目标是观点，观点的正确主语可以认为是观点的正确提出者。在一实施例中，可以将通过依存句法分析确定的观点提出者(即第一主语)以及通过分类模型确定的观点提出者(即第二主语)进行比较，如果一致，则可以认为此观点提出者是正确的，即观点的正确提出者。通过上述方式，可以提高观点提出者的识别准确率。相反的，如果通过依存句法分析确定的观点提出者以及通过分类模型确定的观点提出者不一致，可以以分类模型输出的观点提出者作为正确提出者，或者，将通过依存句法分析确定的观点提出者以及通过分类模型确定的观点提出者一并推送到前端，由用户筛选观点的正确提出者。

在一实施例中，可以将观点和观点的正确主语进行关联存储。即建立观点和观点的正确主语之间的对应关系，方便用户查看观点的提出者。

新闻内容中往往汇集了多个实体的发言，比如，如果一篇新闻的标题是《新华社：张三你看到了吗这是李四的态度》，这是一篇新华社发表的关于王五和李六发表不当言论的评论性文章，这篇文章包含了张三和李四的观点，也包括李二的观点，同时也包括了张六和李五等的观点。通过采用本申请实施例提供的技术方案对一篇融合了多个实体发表观点的新闻进行观点和主语抽取，可以获得多个实体对同一事件的看法，并且可以推测事件的舆论导向以及事件的发展趋势，提高了信息获取的效率。

下文以预设目标为观点举例来说，在一实施例中，在上述步骤210筛选出观点后，本申请实施例提供的方法还包括：结合上下文对观点中包含的指示代词进行指代消解。

指示代词(demonstrative pronoun)是表示指示概念的代词，即用来指示或标识人或事物的代词。指示代词与定冠词和人称代词一样，都具有指定的含义，用来起指示作用，或用来代替前面已提到过的名词。例如，“我的观点就是如此”。如此可以认为是指示代词。指代消解是指明确指示代词代表的具体内容。在一实施例中，可根据人民日报的标注语料和现有的基于决策树进行指代消解的相关技术实现指代消解。通过指代消解，可以确定观点中包含的指示代词代表的具体内容，从而获得准确的观点内容。

在一实施例中，观点要素除包括上文提到的观点的正确提出者外，还包括观点的提出时间和/或提出地点。

在一实施例中，可以通过命名实体识别和规则判断，从文本中筛选出观点的提出地点。

通过命名实体识别可以识别出文本中的地名，规则可以是与观点距离最近的地名，规则判断是指比较不同地名与观点的距离，从而选取与观点距离最近的地名作为观点的提出地点。

在一实施例中，可以根据已构建的时间词库，从文本中提取观点的相对提出时间；根据文本的发布时间，对相对提出时间进行换算，获得所述观点的绝对提出时间。

相对提出时间是指昨日、今日、昨天、前天、本周三等。可以提前构建时间词库，存储各种可能的相对提出时间。故可以通过与时间词库中关键词的匹配，确定文本中包含的时间词，与观点距离最近的时间词，可以认为是观点的相对提出时间。

文本的发布时间是指文本的公开时间，例如新闻发布时间。如果提取不到文本的发布时间，可以将系统采集到文本的时间作为文本的发布时间。举例来说，如果提取不到新闻发布的时间就可以利用数据采集系统的时间作为新闻发布时间。在一实施例中，可以利用爬虫技术作为数据采集系统，进而保证数据采集一定都是当天的最新的数据，且所有当天最新的数据要在当天采集完毕，也就是说数据采集的时间与新闻发布的时间要在“天”为单位上保证一致。由此可以将数据采集的时间作为新闻发布的时间。

在一实施例中，可以制定这样的换算规则，{昨日：-1,昨天：-1，前天：-2}，当检测到观点的相对提出时间是昨日，文本的发布时间是12月11日时，可以确定观点的绝对提出时间是12月10日。观点的绝对提出时间可以认为是观点提出的具体日期。例如“某某发言人于昨日(即相对提出时间)公开发表致歉声明”，而新闻发布是10月11日，那么某某发言人发表该致歉声明的时间(即绝对提出时间)就是10月10日。

在一实施例中，假设相对提出时间是“本周三”，在确定文本发布时间的基础上，可以结合日历数据进行换算，确定发布时间的当周的周三的具体日期。

通过上述实施例提供的技术方案，可以获得观点的提出时间和提出地点，丰富了从文本中提取到的信息。

对于观点、正确提出者、绝对提出时间、提出地点，根据需要，可以对这些结果进行关联存储，方便用户梳理不同的实体对某个事件的态度和态度变化过程。

在一实施例中，如图3所示，在上述步骤240之后，本申请实施例提供的技术方案，还包括：步骤S250和步骤S260。

步骤S250：通过计算所述文本与不同事件的语义相似度，确定文本归属的目标事件。

其中，事件可以认为是发生的事情。对同一事件，可能会存在多篇新闻报道(即文本)，且一篇新闻报道中可能存在多个实体对此事件的观点。而事件同样可能存在多件。故需要判断新闻归属的事件，进而得到新闻中观点针对的事件。

其中，语义相似度用于表征文本用来描述事件的可能性大小。语义相似度越高，则文本用来描述事件的可能性越大。在一实施例中，可以将与文本的语义相似度最高的事件，作为文本归属的目标事件。目标事件是指文本实际评论的事件。

在一实施例中，可以将文本的标题转换为向量，代表不同文本的主要内容。由此将文本与事件的语义相似度计算转换为向量之间的相似度计算。在一实施例中，可以通过对不同文本(向量)进行聚类，确定事件种类，进而对于新的文本，可以计算此文本与不同类(中心点的向量)的距离。此距离可以认为是语义相似度，距离最近的类(即事件)，可以认为是文本归属的目标事件。

在一实施例中，可以通过计算语义相似度和定义的阈值来对不同文本进行聚类。首先选取若干文本标题与剩余的文本标题进行计算，计算出两条数据的相似度满足阈值后，取两条数据的中心点，用中心点与后面的数据进行相似度计算，每次有新的数据(都以定义的阈值为开关，大于等于阈值就开，小于阈值就关)进入后当不断更新中心点。待到所有的数据计算完之后根据中心划分出的类就是事件。如果有新的数据进入，可以采用增量聚类方法，依据上次聚类的结果，将新数据与各事件的中心进行相似度计算。对于阈值可以根据增量聚类完成的次数进行动态优化，目的是使得后面的数据要尽可能地向中心靠拢。随着中心不断的变化，会造成有一些数据与中心的相似度不再满足阈值，那么就要动态调整，不再满足阈值的数据要与其他事件的中心进行相似度计算，从而进行事件数据的优化。

步骤S260：将所述观点以及所述观点的正确主语与所述目标事件关联存储。

在确定文本归属的目标事件后，可以将从此文本中提取的观点、观点的正确提出者、观点的提出地点以及绝对提出时间，和目标事件关联存储。关联存储是指建立链接关系，从而方便获取不同实体对同一事件的看法，方便推测事件的舆论导向以及事件的发展趋势。

下述为本申请装置实施例，可以用于执行本申请上述资料识别方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请资料识别方法实施例。

图4为本申请一实施例示出的一种资料识别装置的框架示意图，该装置包括：目标筛选模块410、主语分析模块420、主语分类模块430以及主语确定模块440。

目标筛选模块410，用于从文本中筛选出符合预设规则的句子，获得预设目标；

主语分析模块420，用于通过命名实体识别和依存句法分析从所述预设目标的上下文提取所述预设目标的第一主语；

主语分类模块430，用于将所述预设目标作为已构建的分类模型的输入，获得所述分类模型输出的所述预设目标的第二主语；

主语确定模块440，用于根据所述第一主语和所述第二主语，得到所述预设目标的正确主语。

上述装置中各个模块的功能和作用的实现过程具体详见上述资料识别方法中对应步骤的实现过程，在此不再赘述。

在本申请所提供的几个实施例中，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种资料识别方法，其特征在于，包括：

从文本中筛选出符合预设规则的句子，获得预设目标；预设目标是指符合预设规则的句子；

2.根据权利要求1所述的方法，其特征在于，所述预设目标为观点，所述从文本中筛选出符合预设规则的句子，获得预设目标，包括：

3.根据权利要求2所述的方法，其特征在于，在所述按照表达观点的标准句式，从所述文本中提取与所述标准句式匹配的句子之后，所述方法还包括：

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

5.根据权利要求2所述的方法，其特征在于，所述方法还包括：

6.根据权利要求2所述的方法，其特征在于，在所述根据所述第一主语和所述第二主语，得到所述预设目标的正确主语之后，所述方法还包括：

将所述观点和所述观点的正确主语进行关联存储。

7.根据权利要求2所述的方法，其特征在于，在所述根据所述第一主语和所述第二主语，得到所述预设目标的正确主语之后，所述方法还包括：

8.一种资料识别装置，其特征在于，包括：

目标筛选模块，用于从文本中筛选出符合预设规则的句子，获得预设目标；预设目标是指符合预设规则的句子；

9.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行权利要求1-7任意一项所述的资料识别方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序可由处理器执行以完成权利要求1-7任意一项所述的资料识别方法。