CN114780706A - 一种舆情事件的信息提取方法、设备和存储介质 - Google Patents
一种舆情事件的信息提取方法、设备和存储介质 Download PDFInfo
- Publication number
- CN114780706A CN114780706A CN202210673663.4A CN202210673663A CN114780706A CN 114780706 A CN114780706 A CN 114780706A CN 202210673663 A CN202210673663 A CN 202210673663A CN 114780706 A CN114780706 A CN 114780706A
- Authority
- CN
- China
- Prior art keywords
- text
- public opinion
- sample
- sentence
- optimized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
Abstract
本申请提供一种舆情事件的信息提取方法、设备和存储介质,该方法可以包括:获取舆情问题和舆情文本,并分别生成所述舆情问题对应的问题句特征向量、所述舆情文本所含句子对应的文本句特征向量;通过自注意力机制对输入进行编码及特征提取,得到的输出包含优化后文本句特征向量;确定每一优化后文本句特征向量在所述舆情文本中对应的句子所含的词,并根据每一优化后文本句特征向量对相应句子所含各个文本词对应的文本词特征向量进行优化,得到优化后文本词特征向量;根据所述优化后文本词特征向量,从所述舆情文本中预测出所述舆情问题的答案。通过本申请的技术方案,可以从舆情文本中准确、高效地提取出针对舆情问题的答案。
Description
技术领域
本申请一个或多个实施例涉及互联网技术领域,尤其涉及一种舆情事件的信息提取方法、设备和存储介质。
背景技术
在大数据时代下,网络舆情的价值密度更低、传播速度更快,同时随着自媒体行业的兴起和队伍的不断扩大,舆情环境越来越复杂。舆情事件的产生一般由网民发布一个话题或者观点诱发的,而每一个网络信息的接受者又可能成为新的信息发布者,从而导致舆情事件的进一步发散。舆情事件反映着群众对社会中的各种现象和问题所表达出来的意见总和,当群众的意见得不到有效回应时,会导致事件的进一步发酵。舆情事件由于缺乏正确的引导和解决,且部门之间的信息传递的滞后,容易激化民众的情绪,演变成社会关注的热点。
在相关技术中,提取舆情事件的信息是依赖构建规则实现的。通过人为经验穷举要素,对收集到的舆情进行标签分类,从而提取到目标信息。舆情事件包含的要素越多,分类所需的标签就越多,服务器存储的数据量就越大。此外,舆情事件的描述千奇百怪,同一个规则并不适用于所有舆情事件,这使得提取的舆情信息准确性不高。基于此,政企在面对突发舆情时,无法准确了解舆情事件的起因和可能产生的关联性结果等相关信息,不能及时对相关舆情作出分析研判。
发明内容
本申请提供了一种舆情事件的信息提取方法,以解决相关技术中的不足。
根据本申请一个或多个实施例的第一方面,提供一种舆情事件的信息提取方法,该方法包括:
获取舆情问题和舆情文本,并分别生成所述舆情问题对应的问题句特征向量、所述舆情文本所含句子对应的文本句特征向量;
通过自注意力机制对输入进行编码及特征提取,该输入包含所述问题句特征向量和所述文本句特征向量,且得到的输出包含优化后文本句特征向量;
确定每一优化后文本句特征向量在所述舆情文本中对应的句子所含的词,并根据每一优化后文本句特征向量对相应句子所含各个文本词对应的文本词特征向量进行优化,得到优化后文本词特征向量;
根据所述优化后文本词特征向量,从所述舆情文本中预测出所述舆情问题的答案。
根据本申请一个或多个实施例的第二方面,提供一种舆情事件的信息提取模型的训练方法,该方法包括:
获取样本舆情问题、样本舆情文本以及所述样本舆情文本中对应于所述样本舆情问题的样本答案;
将所述样本舆情问题和所述样本舆情文本输入舆情事件的信息提取模型,该信息提取模型包含句向量层、推理层、组合层和预测层,其中:
所述句向量层用于分别生成所述样本舆情问题对应的样本问题句特征向量、所述样本舆情文本所含句子对应的样本文本句特征向量;
所述推理层用于通过自注意力机制对提供的输入进行编码及特征提取,该输入包含所述样本问题句特征向量和所述样本文本句特征向量,且得到的输出包含优化后样本文本句特征向量;
所述组合层用于确定每一优化后样本文本句特征向量在所述样本舆情文本中对应的句子所含的词,并根据每一优化后样本文本句特征向量对相应句子所含各个文本词对应的样本文本词特征向量进行优化,得到优化后的样本文本词特征向量;
所述预测层用于根据所述优化后的样本文本词特征向量,从所述样本舆情文本中预测出所述样本舆情问题的答案;
根据预测出的答案与所述样本答案对所述舆情事件的信息提取模型进行迭代训练。
根据本申请一个或多个实施例的第三方面,提供一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器通过运行所述可执行指令以实现如上述第一方面的实施例中所述的方法。
根据本申请一个或多个实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如上述第一方面的实施例中所述方法的步骤。
由以上技术方案可见,本申请一个或多个实施例中,通过将舆情问题和舆情文本转换为相应的句特征向量,并通过对句特征向量进行编码后,用于对相应的词特征向量进行优化,使得基于优化后的词特征向量能够更加高效、准确地从舆情文本中提取出针对舆情问题的答案,从而可以帮助政企在面对舆情突发时,快速了解舆情事件的起因、舆情事件产生的关联性结果等相关信息,有助于对相关舆情作出分析研判。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是根据本申请一示例性实施例提供的一种舆情事件的信息提取方法的流程图。
图2是根据本申请一示例性实施例提供的一种舆情事件的信息提取模型的训练方法的流程图。
图3是根据本申请一示例性实施例提供的一种舆情事件的信息提取模型的架构示意图。
图4是根据本申请一示例性实施例示出的一种电子设备的结构示意图。
图5是根据本申请一示例性实施例示出的一种舆情事件的信息提取装置的框图。
图6是根据本申请一示例性实施例示出的一种舆情事件的信息提取模型的训练装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请一个或多个实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请一个或多个实施例的一些方面相一致的装置和方法的例子。
需要说明的是:在其他实施例中并不一定按照本申请示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本申请所描述的更多或更少。此外,本申请中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本申请中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。
在大数据时代下,舆情环境变得愈发复杂,网络舆情的价值密度更低、传播速度更快。舆情事件由于缺乏正确的引导和解决会发酵成热点事件,相关舆论会对事件的走向产生重大影响。在相关技术中,提取舆情事件的信息是依赖规则构建来实现的。通过人为经验穷举要素,对收集到的舆情进行标签分类,从而提取到目标信息。舆情事件包含的要素越多,分类所需的标签就越多,服务器存储的数据量就越大。此外,舆情事件的描述千奇百怪,同一个规则并不适用于所有舆情事件,这导致了提取的信息准确性不高。
本申请提供一种能够准确灵活地提取舆情事件的信息的模型训练方法以及舆情事件的信息提取方法,可以帮助政企在面对舆情突发时,快速了解舆情事件的起因、舆情事件产生的关联性结果等相关信息,有助于对相关舆情作出分析研判。
图1是一示例性实施例提供的一种舆情事件的信息提取方法的流程图。如图1所示,该方法应用于服务器,该方法可以包括以下步骤:
S101:获取舆情问题和舆情文本,并分别生成所述舆情问题对应的问题句特征向量、所述舆情文本所含句子对应的文本句特征向量。
在本实施例中,舆情可以包括在实体刊物或互联网等途径中产生的对社会问题不同看法的网络舆论,是社会舆论的一种表现形式。因此,舆情往往可以体现出公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点。
如前所述,舆情可以通过实体刊物或互联网等多种途径产生,任何途径形成的舆情均可以用于形成本实施例的舆情问题和舆情文本,本申请并不对此进行限制。比如,舆情可以来自网络近期的热点事件,例如可以是:空难事件、暴雨事件、疫情事件等。相应的,舆情问题可以为针对舆情的任意维度而提出,比如舆情的产生原因、已经或预计导致的结果等;以及,舆情文本可以是针对上述舆情的相关报道。
举例而言,假定存在针对“印尼渡轮倾覆事件”形成的舆情,那么基于本申请的实施例:
获取的舆情问题可以是:“渡轮事故事发原因是什么”
获取的舆情文本可以是:“中新网5月30日电据法新社报道,当地时间30日,一名印度尼西亚搜救人员表示,截至目前,搜救队已救起31名在南苏拉威西省附近海域渡轮倾覆事故中落水的人员,仍有11人失踪。据报道……当地时间26日,一艘载有42人的渡轮在从南苏拉威西省首府望加锡前往庞卡杰内和群岛县的途中发生倾覆,船上人员全部落水。南苏拉威西省搜救局官员此前表示,初步调查显示,事故原因可能是事发海域当天天气恶劣以及渡轮燃油耗尽。”
在一实施例中,可以对舆情问题中包含的问题句直接进行编码实现向量转换,生成相应的问题句特征向量。类似地,可以对舆情文本中包含的文本句直接编码实现向量转换,生成相应的文本句特征向量。关于对句特征向量的编码方式,可以采用相关技术中的任意方式,本申请不再一一列举且并不对此进行限制。
在另一实施例中,可以分别对舆情问题句子和舆情文本句子进行分词,并对得到的词分别进行编码实现向量转换,生成相应的问题词特征向量和文本词特征向量;再根据所述问题词特征向量生成所述问题句特征向量,以及根据所述文本词特征向量生成所述文本句特征向量。采用直接生成句特征向量的方式,往往生成的句特征向量参差不齐,需要额外连接一个检测层来检测生成的句特征向量是否满足要求。若生成的句特征向量不满足要求,则需要重新迭代生成满足要求的句特征向量。而先生成词特征向量、再基于词特征向量生成句特征向量的方式不存在生成的句特征向量参差不齐的问题,因此不需要额外检测,从而可以在降低成本的同时迅速高效地得到目标句特征向量。
对舆情问题句子和舆情文本句子进行分词后,得到的每个词可以为汉字、英文单词、数字、标点等,本申请并不对此进行限制。将词编码生成为相应的词特征向量的方式,例如可以采用BERT(Bidirectional Encoder Representations from Transformers,基于变换器的双向编码表征器)、RNN(Recurrent Neural Network,循环神经网络)或者CNN(Convolution Neural Network,卷积神经网络)等模型,本申请并不对此进行限制。
以BERT为例,结合上文所述的实施例:先分别对舆情问题句子和舆情文本句子进行分词,将所有字符与两个特殊字符[CLS]和[SEP]进行串接,生成字符串为:“行串接,生成渡轮事故事发原因是什么 [SEP] 中新网 5 月 30 日电据法新社报道…初步调查显示,事故原因可能是事发海域当天天气恶劣以及渡轮燃油耗尽”,其中每个字符之间用空格相互间隔。将上述字符串输入BERT模型进行编码实现向量转换,并得到BERT模型输出的问题词特征向量和文本词特征向量。
进一步地,由于每个词特征向量由相应的词进行编码得到,而每个词在舆情问题或舆情文本中属于相应的句子,因而存在词特征向量与句子之间的映射关系,包括问题词特征向量与问题句之间的映射关系、文本词特征向量与文本句之间的映射关系。基于上述的映射关系以及问题词特征向量和文本词特征向量,可以采用诸如BiLSTM(Bi-LongShort-Term Memory,双向长短期记忆网络)、CNN等网络或者Average、Max Pooling等进行处理,从而根据所述问题词特征向量生成所述问题句特征向量,以及根据所述文本词特征向量生成所述文本句特征向量。
在根据词特征向量生成相应的句特征向量的过程中,并不仅仅是针对词特征向量进行拼接,还涉及到各个词特征向量之间基于语义等因素而实现的编码,使得生成的句特征向量能够更加准确地表达相应的句子。因此,基于所生成的句特征向量,还可以反过来对词特征向量进行微调,比如根据所述文本句特征向量进一步对所述文本词特征向量进行微调,使得文本词特征向量既能够包含其对应的文本词的信息,也可以包含其所在文本句的信息,以便于在后续的预测过程中提升准确率。
S102:通过自注意力机制对输入进行编码及特征提取,该输入包含所述问题句特征向量和所述文本句特征向量,且得到的输出包含优化后文本句特征向量。
自注意力机制(Self-Attention)可以计算句子中每个单词与其他所有单词的关联,从本质上讲和人类的选择性视觉注意力机制类似,核心目标是从众多信息中选择出对当前任务目标更关键的信息。通过采用自注意力机制对输入进行编码及特征提取,使得相应的输出能够更加准确地表征相应的句子,比如优化后文本句特征向量相比于上述的文本句特征向量而言,能够更加准确地表征相应的文本句,有助于提升后续过程的预测准确率。举例而言,可以采用Transformer或Self-Attention模型来构建推理层,以用于实现上述功能,此处不再赘述。
在一实施例中,可以根据所述优化后文本句特征向量预测所述舆情文本中是否存在包含所述舆情问题的答案的句子。例如,可以在上述推理层的输出连接Sigmoid函数执行分类任务,由Sigmoid函数对优化后文本句特征向量进行处理,从而预测出舆情文本中的哪些句子可能包含舆情问题的答案。
在一实施例中,上述输出还可以包含优化后问题句特征向量,并据此预测针对所述舆情问题的答案类型。例如,可以在上述推理层的输出连接Softmax函数执行分类任务,由Softmax函数对优化后问题句特征向量进行处理,从而预测出舆情问题的答案为详情类型、判断类型还是未知类型。其中,详情类型表明需要从舆情文本中提取至少一部分文本内容来作为舆情问题的答案,判断类型表明舆情问题的答案仅为“是”或“否”、并从舆情文本中提取出包含所述舆情问题的答案的文本内容,未知类型表明无法回答舆情问题。
当预测出舆情文本中存在至少一个句子包含舆情问题的答案,且舆情问题的答案为详情类型时,进一步转入S103-104进行处理,否则可以终止处理。例如,假定通过Softmax函数预测出舆情问题“渡轮事故事发原因是什么”的答案类型是详情类型,且通过Sigmoid函数预测出文本句“印尼渡轮倾覆事故已有31人获救11人失踪”包含答案的概率是0.95、文本句“事故原因可能是事发海域当天天气恶劣以及渡轮燃油耗尽。”包含答案的概率是0.99。因此,进一步转入S103-104进行处理。
在一实施例中,与前述根据文本句特征向量对文本词特征向量进行微调相类似的,还可以进一步通过优化后文本句特征向量对文本词特征向量进行微调,可以进一步提升文本词特征向量的准确性。
S103:确定每一优化后文本句特征向量在所述舆情文本中对应的句子所含的词,并根据每一优化后文本句特征向量对相应句子所含各个文本词对应的文本词特征向量进行优化,得到优化后文本词特征向量。
在一实施例中,每个文本词属于舆情文本中相应的一个文本句,根据文本词与文本句之间的对应关系,可以对每个文本词实现下述处理:采用每一文本词所属文本句对应的优化后文本句特征向量对该文本词对应的文本词特征向量进行优化,使得优化后文本词特征向量包含其所属文本句对应的优化后文本句特征向量的信息,从而能够更加准确地表征相应文本词的含义及其与其他文本词之间的内在联系,有助于提升后续对于答案的预测准确性。其中,本实施例中所提及的文本词特征向量,可以为直接由文本词进行编码转换生成的文本词特征向量,也可以是上述实施例中经过文本句特征向量进行微调后的文本词特征向量,或者是上述实施例中经过优化后文本句特征向量进行微调后的文本词特征向量,还可以是依据经过文本句特征向量和优化后文本句特征向量进行微调后的文本词特征向量。
具体的,基于优化后文本句特征向量对文本词特征向量进行优化时,可以采用多种方式对两个特征向量进行组合计算。例如,可以采用相加、加权平均等方式,本申请并不对此进行限制。
在一实施例中,除了舆情文本中的文本句之外,还可以针对舆情文本中包含的命名实体进行处理,以进一步提升本申请技术方案的准确率。命名实体可以为舆情文本中的关键词,比如人名、机构名、地名、数字、日期、货币、物体名(如轮渡)等,还可以包括自定义的关键词,本申请并不对此进行限制。本申请中可以提取舆情文本中包含的命名实体,并生成相应的命名实体特征向量。命名实体特征向量的生成方式与上述文本句特征向量的生成方式类似,此处不再赘述。
命名实体特征向量可以作为上述S102中的输入,采用自注意力机制进行处理生成相应的优化后命名实体特征向量。与上述文本句特征向量相类似的,命名实体特征向量与优化后命名实体特征向量中的至少一方可以用于对文本词特征向量进行微调,以提升预测准确率。以及,当任一文本词属于某一命名实体时,该命名实体对应的优化后命名实体特征向量可以用于对该文本词对应的文本词特征向量进行优化,优化方式可以包括上述的相加、加权平均等组合计算,此处不再赘述。
S104:根据所述优化后文本词特征向量,从所述舆情文本中预测出所述舆情问题的答案。
在一实施例中,可以将所述优化后文本词特征向量输入基于自注意力机制的预测层进行编码及特征提取,并对所述预测层输出的文本词特征向量进行分类,并根据分类结果确定出所述舆情问题的答案。
在分类过程中,可以先对预测层输出的各个向量分别进行线性变换、映射为分别对应于起始位置和结束位置的两个值,然后通过Softmax函数分别计算,从而确定出每个文本词位于起始位置的概率和位于结束位置的概率。最后,筛选出位于起始位置概率最大的文本词和位于结束位置概率最大的文本词,并取两者之间的文本词片段为所述舆情问题的答案。
仍以上述的轮渡事故场景为例,假定经过上述计算后,确定出文本句“事故原因可能是事发海域当天天气恶劣以及渡轮燃油耗尽”中每个文本词位于起始或结束位置的概率见表1:
由表1可得,“事”位于起始位置的概率最大,“尽”位于结束位置的概率最大,因而可以取位于“事”与“尽”之间的所有词为所述舆情问题的答案,确定舆情问题的答案为“事发海域当天天气恶劣以及渡轮燃油耗尽”。
以上实施例中,介绍了本申请对舆情事件进行信息提取的方案,可以从舆情文本中提取舆情问题对应的答案。在具体实现过程中,可以通过建立并训练舆情事件的信息提取模型,从而基于该信息提取模型来高效、准确地实现上述的信息提取。例如,该信息提取模型可以包括句向量层、推理层、组合层和预测层,其中:
所述句向量层用于分别生成舆情问题对应的问题句特征向量、舆情文本对应的文本句特征向量;
所述推理层用于通过自注意力机制对提供的输入进行编码及特征提取,该输入包含问题句特征向量和文本句特征向量,且得到的输出包含优化后文本句特征向量;
所述组合层用于确定每一优化后文本句特征向量在所述舆情文本中对应的句子所含的词,并根据每一优化后文本句特征向量对相应句子所含各个文本词对应的文本词特征向量进行优化,得到优化后文本词特征向量;
所述预测层用于根据所述优化后文本词特征向量,从所述舆情文本中预测出所述舆情问题的答案。
那么,针对上述的信息提取模型,本申请还提出了相应的模型训练方案,下面结合图2进行具体介绍。
图2是一示例性实施例提供的一种舆情事件的信息提取模型的训练方法的流程图。如图2所示,该方法可以包括以下步骤:
S201:获取样本舆情问题、样本舆情文本以及所述样本舆情文本中对应于所述样本舆情问题的样本答案。
在本实施例中,样本舆情问题、样本舆情文本以及所述样本舆情文本中对应于所述样本舆情问题的样本答案是已知的、确定的。而样本舆情问题、样本舆情文本以及所述样本舆情文本中对应于所述样本舆情问题的样本答案的获取方式可以参考上述实施例S101,此处不再赘述。
S202:将所述样本舆情问题和所述样本舆情文本输入所述舆情事件的信息提取模型,输出预测的针对样本舆情问题的答案。
预测针对样本舆情问题的答案的具体过程可以详见图3。
图3是一示例性实施例提供的一种舆情事件的信息提取模型的架构示意图。如图3所示,该模型包括:
句向量层301,用于分别生成样本舆情问题对应的样本问题句特征向量、样本舆情文本对应的样本文本句特征向量。
在一实施例中,所述句向量层采用先生成样本词特征向量、再基于样本词特征向量生成样本句特征向量的方式生成所述样本问题句特征向量和样本文本句特征向量。具体生成方式可以参考上述实施例S101中根据问题词特征向量和文本词特征向量生成对应的问题句特征向量和文本句特征向量,此处不再赘述。
推理层302,用于通过自注意力机制对提供的输入进行编码及特征提取,该输入包含样本问题句特征向量和样本文本句特征向量,且得到的输出包含优化后样本文本句特征向量。具体推理过程可以参考上述实施例S102的推理过程。
当预测出样本舆情文本中存在至少一个句子包含样本舆情问题的答案,且样本舆情问题的答案为详情类型时,进一步转入组合层303和预测层304进行训练,否则可以终止训练。
以及在预测出答案类型为非详情类型且所述样本舆情文本中存在包含所述样本舆情问题的答案的句子的情况下,输出预测的所述样本舆情文本中存在包含所述样本舆情问题的答案的句子,并结束迭代。
组合层303,用于确定每一优化后样本文本句特征向量在所述样本舆情文本中对应的句子所含的词,并根据每一优化后样本文本句特征向量对相应句子所含各个文本词对应的样本文本词特征向量进行优化,得到优化后样本文本词特征向量。具体优化方式可以参见上述S103中根据每一优化后文本句特征向量对相应句子所含各个文本词对应的文本词特征向量进行优化,得到优化后文本词特征向量。
预测层304,用于根据所述优化后样本文本词特征向量,从所述样本舆情文本中预测出所述样本舆情问题的答案。将所述优化后样本文本词特征向量输入基于自注意力机制的预测层进行编码及特征提取,输出进一步优化后的样本文本词特征向量。
对预测层输出的各个样本文本词特征向量分别进行线性变换、映射为分别对应于起始位置和结束位置的两个值,然后通过Softmax函数分别计算,从而确定出每个样本文本词位于起始位置的概率和位于结束位置的概率。最后,筛选出位于起始位置概率最大的样本文本词和位于结束位置概率最大的样本文本词,并取两者之间的样本文本词片段为所述样本舆情问题的答案。
答案类型预测层305,用于在所述推理层的输出还包含优化后样本问题句特征向量的情况下,根据所述优化后样本问题句特征向量预测针对所述样本舆情问题的答案类型。具体预测答案类型的步骤可以参考上述S102中的预测方式。
答案存在性预测层306,用于根据所述优化后样本文本句特征向量预测所述样本舆情文本中是否存在包含所述样本舆情问题的答案的句子。具体预测答案类型的步骤可以参考上述S102中的预测方式。
S203:根据预测出的所述样本舆情问题的答案与所述样本答案对所述舆情事件的信息提取模型进行迭代训练。
通过多次迭代训练后,在得到的信息提取模型满足预定义的训练目标或达到预定义的迭代次数后,完成对信息提取模型的训练,并可以用于实现如图1所示的舆情事件的信息提取方案。
与上述方法实施例相对应,本申请还提供了一种装置的实施例。
图4是根据本申请一示例性实施例示出的一种电子设备的结构示意图。参考图4,在硬件层面,该电子设备包括处理器402、内部总线404、网络接口406、内存408以及非易失性存储器410,当然还可能包括其他业务所需要的硬件。处理器402从非易失性存储器410中读取对应的计算机程序到内存408中然后运行。当然,除了软件实现方式之外,本申请并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
图5是根据本申请一示例性实施例示出的一种舆情事件的信息提取装置的框图。参照图5,该装置包括获取单元502、编码单元504、优化单元506、预测单元508,其中:
获取单元502,被配置为获取舆情问题和舆情文本,并分别生成所述舆情问题对应的问题句特征向量、所述舆情文本所含句子对应的文本句特征向量。
编码单元504,被配置为通过自注意力机制对输入进行编码及特征提取,该输入包含所述问题句特征向量和所述文本句特征向量,且得到的输出包含优化后文本句特征向量。
优化单元506,被配置为确定每一优化后文本句特征向量在所述舆情文本中对应的句子所含的词,并根据每一优化后文本句特征向量对相应句子所含各个文本词对应的文本词特征向量进行优化,得到优化后文本词特征向量。
预测单元508,被配置为根据所述优化后文本词特征向量,从所述舆情文本中预测出所述舆情问题的答案。
可选的,所述获取单元502具体用于:分别对所述舆情问题和所述舆情文本进行分词,并对得到的词分别进行向量转换,生成相应的问题词特征向量和文本词特征向量;根据所述问题词特征向量生成所述问题句特征向量,以及根据所述文本词特征向量生成所述文本句特征向量。
可选的,所述装置还包括:
微调单元510,被配置为根据所述文本句特征向量和/或所述优化后文本句特征向量对所述文本词特征向量进行微调;
所述优化单元506具体用于:根据每一优化后文本句特征向量对相应句子所含各个文本词对应的微调后的文本词特征向量进行优化。
可选的,所述预测单元508具体用于:向基于自注意力机制的预测层提供输入进行编码及特征提取,该输入包含所述优化后文本词特征向量;对所述预测层输出的向量进行分类,并根据分类结果确定出所述舆情问题的答案。
可选的,所述装置还包括:
答案类型预测单元512,被配置为在所述输出还包含优化后问题句特征向量的情况下,根据所述优化后问题句特征向量预测针对所述舆情问题的答案类型。
答案存在性预测单元514,被配置为根据所述优化后文本句特征向量预测所述舆情文本中是否存在包含所述舆情问题的答案的句子。
所述优化单元506具体用于:在预测出答案类型为详情类型且所述舆情文本中存在包含所述舆情问题的答案的句子的情况下,根据每一优化后句特征向量对相应句子所含各个词对应的词特征向量进行优化。
所述装置还包括:答案输出单元516,被配置为在预测出答案类型为判断类型且所述舆情文本中存在包含所述舆情问题的答案的句子的情况下,输出预测的所述舆情文本中存在包含所述舆情问题的答案的句子并结束。
可选的,所述装置还包括:
命名实体单元518,被配置为生成所述舆情文本所含的命名实体对应的命名实体特征向量。其中,所述输入还包含所述命名实体特征向量、输出还包含优化后命名实体特征向量,且所述优化后文本词特征向量还经由相应词在所述舆情文本中所属命名实体对应的优化后命名实体特征向量进行优化。
图6是根据本申请一示例性实施例示出的一种舆情事件的信息提取模型的训练装置的框图。参照图6,该装置包括样本获取单元602、输入单元604、迭代单元606,其中:
样本获取单元602,被配置为获取样本舆情问题、样本舆情文本以及所述样本舆情文本中对应于所述样本舆情问题的样本答案。
输入单元604,被配置为将所述样本舆情问题和所述样本舆情文本输入舆情事件的信息提取模型,该信息提取模型包含句向量层、推理层、组合层和预测层,其中:
句向量层被配置为分别生成所述样本舆情问题对应的样本问题句特征向量、所述样本舆情文本所含句子对应的样本文本句特征向量。
推理层被配置为通过自注意力机制对提供的输入进行编码及特征提取,该输入包含所述样本问题句特征向量和所述样本文本句特征向量,且得到的输出包含优化后样本文本句特征向量。
组合层被配置为确定每一优化后样本文本句特征向量在所述样本舆情文本中对应的句子所含的词,并根据每一优化后样本文本句特征向量对相应句子所含各个文本词对应的样本文本词特征向量进行优化,得到优化后的样本文本词特征向量。
预测层被配置为根据所述优化后的样本文本词特征向量,从所述样本舆情文本中预测出所述样本舆情问题的答案。
迭代单元606被配置为根据预测出的答案与所述样本答案对所述舆情事件的信息提取模型进行迭代训练。
可选的,所述装置还包括答案类型预测层和答案存在性预测层,其中:
答案类型预测层被配置为在所述推理层的输出还包含优化后样本问题句特征向量的情况下,根据所述优化后样本问题句特征向量预测针对所述样本舆情问题的答案类型。
答案存在性预测层被配置为于根据所述优化后样本文本句特征向量预测所述样本舆情文本中是否存在包含所述样本舆情问题的答案的句子。
其中,所述组合层用于在预测出答案类型为详情类型且所述样本舆情文本中存在包含所述样本舆情问题的答案的句子的情况下,根据每一优化后样本句特征向量对相应句子所含各个词对应的样本文本词特征向量进行优化;以及在预测出答案类型为非详情类型且所述样本舆情文本中存在包含所述样本舆情问题的答案的句子的情况下,输出预测的所述样本舆情文本中存在包含所述样本舆情问题的答案的句子,并结束迭代。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
上述实施例阐明的装置或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
在一个典型的配置中,计算机包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (RAM) 和/或非易失性内存等形式,如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。
Claims (10)
1.一种舆情事件的信息提取方法,其特征在于,该方法包括:
获取舆情问题和舆情文本,并分别生成所述舆情问题对应的问题句特征向量、所述舆情文本所含句子对应的文本句特征向量;
通过自注意力机制对输入进行编码及特征提取,该输入包含所述问题句特征向量和所述文本句特征向量,且得到的输出包含优化后文本句特征向量;
确定每一优化后文本句特征向量在所述舆情文本中对应的句子所含的词,并根据每一优化后文本句特征向量对相应句子所含各个文本词对应的文本词特征向量进行优化,得到优化后文本词特征向量;
根据所述优化后文本词特征向量,从所述舆情文本中预测出所述舆情问题的答案。
2.根据权利要求1的方法,其特征在于,所述分别生成所述舆情问题对应的问题句特征向量、所述舆情文本所含句子对应的文本句特征向量,包括:
分别对所述舆情问题和所述舆情文本进行分词,并对得到的词分别进行向量转换,生成相应的问题词特征向量和文本词特征向量;
根据所述问题词特征向量生成所述问题句特征向量,以及根据所述文本词特征向量生成所述文本句特征向量。
3.根据权利要求2的方法,其特征在于,
所述方法还包括:根据所述文本句特征向量和/或所述优化后文本句特征向量对所述文本词特征向量进行微调;
所述根据每一优化后文本句特征向量对相应句子所含各个文本词对应的文本词特征向量进行优化,包括:根据每一优化后文本句特征向量对相应句子所含各个文本词对应的微调后的文本词特征向量进行优化。
4.根据权利要求1的方法,其特征在于,
所述方法还包括:根据所述优化后文本句特征向量预测所述舆情文本中是否存在包含所述舆情问题的答案的句子;以及,在所述输出还包含优化后问题句特征向量的情况下,根据所述优化后问题句特征向量预测针对所述舆情问题的答案类型;
所述根据每一优化后句特征向量对相应句子所含各个词对应的词特征向量进行优化,包括:在预测出答案类型为详情类型且所述舆情文本中存在包含所述舆情问题的答案的句子的情况下,根据每一优化后句特征向量对相应句子所含各个词对应的词特征向量进行优化;
所述方法还包括:在预测出答案类型为判断类型且所述舆情文本中存在包含所述舆情问题的答案的句子的情况下,输出预测的所述舆情文本中存在包含所述舆情问题的答案的句子并结束。
5.根据权利要求1的方法,其特征在于,还包括:
生成所述舆情文本所含的命名实体对应的命名实体特征向量;
其中,所述输入还包含所述命名实体特征向量、输出还包含优化后命名实体特征向量,且所述优化后文本词特征向量还经由相应词在所述舆情文本中所属命名实体对应的优化后命名实体特征向量进行优化。
6.根据权利要求1的方法,其特征在于,所述根据所述优化后文本词特征向量,从所述舆情文本中预测出所述舆情问题的答案,包括:
向基于自注意力机制的预测层提供输入进行编码及特征提取,该输入包含所述优化后文本词特征向量;
对所述预测层输出的向量进行分类,并根据分类结果确定出所述舆情问题的答案。
7.一种舆情事件的信息提取模型的训练方法,其特征在于,该方法包括:
获取样本舆情问题、样本舆情文本以及所述样本舆情文本中对应于所述样本舆情问题的样本答案;
将所述样本舆情问题和所述样本舆情文本输入舆情事件的信息提取模型,该信息提取模型包含句向量层、推理层、组合层和预测层,其中:
所述句向量层用于分别生成所述样本舆情问题对应的样本问题句特征向量、所述样本舆情文本所含句子对应的样本文本句特征向量;
所述推理层用于通过自注意力机制对提供的输入进行编码及特征提取,该输入包含所述样本问题句特征向量和所述样本文本句特征向量,且得到的输出包含优化后样本文本句特征向量;
所述组合层用于确定每一优化后样本文本句特征向量在所述样本舆情文本中对应的句子所含的词,并根据每一优化后样本文本句特征向量对相应句子所含各个文本词对应的样本文本词特征向量进行优化,得到优化后的样本文本词特征向量;
所述预测层用于根据所述优化后的样本文本词特征向量,从所述样本舆情文本中预测出所述样本舆情问题的答案;
根据预测出的答案与所述样本答案对所述舆情事件的信息提取模型进行迭代训练。
8.根据权利要求7的方法,其特征在于,所述舆情事件的信息提取模型还包括:
答案类型预测层,用于在所述推理层的输出还包含优化后样本问题句特征向量的情况下,根据所述优化后样本问题句特征向量预测针对所述样本舆情问题的答案类型;
答案存在性预测层,用于根据所述优化后样本文本句特征向量预测所述样本舆情文本中是否存在包含所述样本舆情问题的答案的句子;
其中,所述组合层用于在预测出答案类型为详情类型且所述样本舆情文本中存在包含所述样本舆情问题的答案的句子的情况下,根据每一优化后样本句特征向量对相应句子所含各个词对应的样本文本词特征向量进行优化;
以及在预测出答案类型为非详情类型且所述样本舆情文本中存在包含所述样本舆情问题的答案的句子的情况下,输出预测的所述样本舆情文本中存在包含所述样本舆情问题的答案的句子,并结束迭代。
9.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器通过运行所述可执行指令以实现如权利要求1-8中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现如权利要求1-8中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210673663.4A CN114780706A (zh) | 2022-06-15 | 2022-06-15 | 一种舆情事件的信息提取方法、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210673663.4A CN114780706A (zh) | 2022-06-15 | 2022-06-15 | 一种舆情事件的信息提取方法、设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114780706A true CN114780706A (zh) | 2022-07-22 |
Family
ID=82421505
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210673663.4A Pending CN114780706A (zh) | 2022-06-15 | 2022-06-15 | 一种舆情事件的信息提取方法、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114780706A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109977428A (zh) * | 2019-03-29 | 2019-07-05 | 北京金山数字娱乐科技有限公司 | 一种答案获取的方法及装置 |
CN110688491A (zh) * | 2019-09-25 | 2020-01-14 | 暨南大学 | 基于深度学习的机器阅读理解方法、系统、设备及介质 |
CN113946681A (zh) * | 2021-12-20 | 2022-01-18 | 军工保密资格审查认证中心 | 文本数据的事件抽取方法、装置、电子设备及可读介质 |
WO2022036616A1 (zh) * | 2020-08-20 | 2022-02-24 | 中山大学 | 一种基于低标注资源生成可推理问题的方法和装置 |
-
2022
- 2022-06-15 CN CN202210673663.4A patent/CN114780706A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109977428A (zh) * | 2019-03-29 | 2019-07-05 | 北京金山数字娱乐科技有限公司 | 一种答案获取的方法及装置 |
CN110688491A (zh) * | 2019-09-25 | 2020-01-14 | 暨南大学 | 基于深度学习的机器阅读理解方法、系统、设备及介质 |
WO2022036616A1 (zh) * | 2020-08-20 | 2022-02-24 | 中山大学 | 一种基于低标注资源生成可推理问题的方法和装置 |
CN113946681A (zh) * | 2021-12-20 | 2022-01-18 | 军工保密资格审查认证中心 | 文本数据的事件抽取方法、装置、电子设备及可读介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10902214B2 (en) | Natural language generation using pinned text and multiple discriminators | |
Zhang et al. | Cyberbullying detection with a pronunciation based convolutional neural network | |
Swathi et al. | An optimal deep learning-based LSTM for stock price prediction using twitter sentiment analysis | |
CN111914551B (zh) | 自然语言处理方法、装置、电子设备及存储介质 | |
Mao et al. | Mapping near-real-time power outages from social media | |
US20220215209A1 (en) | Training machine learning models using unsupervised data augmentation | |
US20220300546A1 (en) | Event extraction method, device and storage medium | |
CN111339260A (zh) | 一种基于bert和qa思想的细粒度情感分析方法 | |
CN112287100A (zh) | 文本识别方法、拼写纠错方法及语音识别方法 | |
CN113157886B (zh) | 一种自动问答生成方法、系统、终端及可读存储介质 | |
CN111753082A (zh) | 基于评论数据的文本分类方法及装置、设备和介质 | |
CN116501898B (zh) | 适用于少样本和有偏数据的金融文本事件抽取方法和装置 | |
US20220067579A1 (en) | Dynamic ontology classification system | |
CN115017916A (zh) | 方面级情感分析方法、装置、电子设备及存储介质 | |
CN113553412A (zh) | 问答处理方法、装置、电子设备和存储介质 | |
CN111507108B (zh) | 别名生成方法、装置、电子设备及计算机可读存储介质 | |
CN113704466B (zh) | 基于迭代网络的文本多标签分类方法、装置及电子设备 | |
CN115357711A (zh) | 一种方面级情感分析方法、装置、电子设备及存储介质 | |
CN114780706A (zh) | 一种舆情事件的信息提取方法、设备和存储介质 | |
CN112115258B (zh) | 一种用户的信用评价方法、装置、服务器及存储介质 | |
CN114579876A (zh) | 虚假信息检测方法、装置、设备及介质 | |
CN113869068A (zh) | 场景服务推荐方法、装置、设备及存储介质 | |
Brito et al. | Towards German word embeddings: A use case with predictive sentiment analysis | |
US20230168989A1 (en) | BUSINESS LANGUAGE PROCESSING USING LoQoS AND rb-LSTM | |
Oswal | Identifying and Categorizing Offensive Language in Social Media |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |