CN113139116B - 基于bert的媒体信息观点抽取方法、装置、设备和存储介质 - Google Patents

基于bert的媒体信息观点抽取方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN113139116B
CN113139116B CN202010060445.4A CN202010060445A CN113139116B CN 113139116 B CN113139116 B CN 113139116B CN 202010060445 A CN202010060445 A CN 202010060445A CN 113139116 B CN113139116 B CN 113139116B
Authority
CN
China
Prior art keywords
viewpoint
information
named entity
character
extraction model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010060445.4A
Other languages
English (en)
Other versions
CN113139116A (zh
Inventor
孔庆超
王婧宜
王宇琪
苑霸
罗引
张西娜
彭鑫
王磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongke Wenge Technology Co ltd
Original Assignee
Beijing Zhongke Wenge Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongke Wenge Technology Co ltd filed Critical Beijing Zhongke Wenge Technology Co ltd
Priority to CN202010060445.4A priority Critical patent/CN113139116B/zh
Publication of CN113139116A publication Critical patent/CN113139116A/zh
Application granted granted Critical
Publication of CN113139116B publication Critical patent/CN113139116B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于BERT的媒体信息观点抽取方法、装置、设备和存储介质。该方法包括:获取观点待抽取的语料信息;利用预设的命名实体识别算法,识别语料信息中的命名实体;将命名实体和语料信息输入预先训练的观点抽取模型中,并获取观点抽取模型输出的命名实体对应的观点信息;其中,观点抽取模型根据命名实体和语料信息,生成命名实体对应的字符序列;观点抽取模型的BERT模型根据命名实体对应的字符序列,生成命名实体对应的字符向量序列;观点抽取模型的softmax层根据命名实体对应的字符向量序列以及训练观点抽取模型时得到的片段开始向量和片段结束向量,确定命名实体对应的观点信息。本发明可以减轻人工抽取观点信息的工作量,提升观点信息抽取的准确性。

Description

基于BERT的媒体信息观点抽取方法、装置、设备和存储介质
技术领域
本发明涉及观点抽取技术领域,尤其涉及一种基于BERT(Bidirectional EncoderRepresentations from Transformer)的媒体信息观点抽取方法、装置、设备和存储介质。
背景技术
在新媒体时代下,网络媒体、移动端媒体等新媒体成为了新闻传播的重要途径。通过分析包含一定主观色彩的新闻报道,可以了解媒体对特定事件的观点和立场,进而把握发展态势,辅助决策者进行舆情研判。但是由于新闻报道数量巨大,而且报道内容重复的较多,仅靠人工的方法很难应对海量信息的整理和总结,因此,观点抽取技术应运而生。
观点抽取是指从一段文本中抽取表达个人观点、感受或信念的文本内容。抽取的观点信息至少包括:观点持有者、主题和陈述。具体来说,观点持有者对某个主题发表了观点,并且这个观点可能包含一定的情感色彩。
目前,观点抽取主要应用于商品评论领域,观点持有人是用户,商家通过抽取用户对产品的评论,筛选出实体及其描述词,得到用户对商品的观点,例如“鞋子质量好”、“操作简单”。但是,应用于商品评论领域中的观点抽取方式并不适用于新闻领域。因为在商品评论领域中,观点抽取算法相对简单,而且抽取的观点简短,仅抽取实体及其描述词即可,而新闻报道的篇幅一般较长,信息量较大,仅用抽取实体及其描述词不能体现完整的观点信息,因此将现有的观点抽取方法应用在新闻领域时,抽取出的观点信息准确率较低。
发明内容
本发明的主要目的在于提供一种基于BERT的媒体信息观点抽取方法、装置、设备和存储介质,以解决利用现有的观点抽取方法在抽取新闻领域的观点信息时,准确率低的问题。
针对上述技术问题,本发明是通过以下技术方案来解决的:
本发明提供了一种基于BERT的媒体信息观点抽取方法,包括:获取观点待抽取的语料信息;利用预设的命名实体识别算法,识别所述语料信息中的命名实体;将所述命名实体和所述语料信息输入预先训练的观点抽取模型中,并获取所述观点抽取模型输出的所述命名实体对应的观点信息;其中,所述观点抽取模型根据所述命名实体和所述语料信息,生成所述命名实体对应的字符序列;所述观点抽取模型的BERT模型根据所述命名实体对应的字符序列,生成所述命名实体对应的字符向量序列;所述观点抽取模型的softmax层根据所述命名实体对应的字符向量序列以及训练所述观点抽取模型时得到的片段开始向量和片段结束向量,确定所述命名实体对应的观点信息。
其中,所述将所述命名实体和所述语料信息输入预先训练的观点抽取模型中,包括:如果在所述语料信息中识别出一个命名实体,则将所述语料信息以及在所述语料信息中识别出的命名实体输入所述观点抽取模型;如果在所述语料信息中识别出多个命名实体,则计算所述语料信息和所述多个命名实体的笛卡尔乘积,得到多个组合;每个所述组合包括所述语料信息以及在所述语料信息中识别出的一个命名实体;将所述多个组合顺序输入所述观点抽取模型;所述观点抽取模型根据所述命名实体和所述语料信息,生成所述命名实体对应的字符序列,包括:所述观点抽取模型根据输入的所述命名实体和所述语料信息,拼接所述命名实体的字符和所述语料信息的字符,得到所述命名实体对应的字符序列。
其中,所述拼接所述命名实体的字符和所述语料信息的字符,包括:连接所述命名实体的字符和所述语料信息的字符,形成字符串;在所述字符串的第一个字符之前添加第一预设标记,在所述字符串的最后一个字符之后添加第二预设标记;在所述命名实体的字符和所述语料信息的字符之间插入第三预设标记。
其中,所述观点抽取模型的softmax层根据所述命名实体对应的字符向量序列以及训练所述观点抽取模型时得到的片段开始向量和片段结束向量,确定所述命名实体对应的观点信息,包括:所述softmax层根据所述字符向量序列,所述片段开始向量和所述片段结束向量,计算所述语料信息中任意两个位置之间的字符作为观点的概率值;在计算出的所有概率值中,确定大于预设观点阈值的概率值;在所述大于预设观点阈值的概率值中,确定大于零观点概率值以及预设基准阈值的和的概率值,作为目标概率值;其中,所述零观点概率值是所述softmax层根据所述字符向量序列,所述片段开始向量和所述片段结束向量,计算所述语料信息中观点开始位置和观点结束位置都指向所述第一预设标记的字符的概率值;将所述目标概率值对应的两个位置之间的字符形成的语料片段作为所述命名实体对应的观点信息。
其中,在所述将所述语料信息和所述命名实体输入预先训练的观点抽取模型中之前,还包括:根据预先构建的训练数据集,训练所述观点抽取模型;在所述训练数据集中包括多个样本信息对;每个样本信息对包括样本语料信息和在所述样本语料信息中识别出的一个样本命名实体,并且为每个所述样本信息对标注出是否存在观点的标记,观点信息以及观点开始位置;所述训练所述观点抽取模型的步骤,包括:步骤S2,初始化softmax层中的所述片段开始向量和所述片段结束向量;步骤S4,从所述训练数据集中获取一个样本信息对,作为训练信息对;步骤S6,将所述训练信息对输入所述观点抽取模型,所述观点抽取模型生成所述训练信息对中的样本命名实体对应的样本字符序列;所述BERT模型根据所述样本字符序列,生成所述样本命名实体对应的样本字符向量序列;所述softmax层根据当前调整的片段开始向量和片段结束向量以及所述样本字符向量序列,计算所述训练信息对中的样本语料信息的每个字符作为观点开始位置的概率以及作为观点结束位置的概率;步骤S8,根据预设的最小化风险函数策略,为所述训练信息对被标注出的是否存在观点的标记,观点信息以及观点开始位置,所述训练信息对中的样本语料信息的每个字符作为观点开始位置的概率以及作为观点结束位置的概率,计算所述观点抽取模型的损失值;步骤S10,如果所述损失值小于预设的损失阈值,则确定所述观点抽取模型已经收敛;反之,则调整所述观点抽取模型中的参数并跳转到步骤S4;所述观点抽取模型中的参数包括:所述BERT模型中的参数以及所述softmax层中的片段开始向量和片段结束向量。
其中,所述最小化风险函数为交叉熵损失函数。
其中,所述命名实体的类型包括:人名和机构名称。
本发明还提供了一种基于BERT的媒体信息观点抽取装置,包括:获取模块,用于获取观点待抽取的语料信息;识别模块,用于利用预设的命名实体识别算法,识别所述语料信息中的命名实体;抽取模块,用于将所述命名实体和所述语料信息输入预先训练的观点抽取模型中,并获取所述观点抽取模型输出的所述命名实体对应的观点信息;其中,所述观点抽取模型根据所述命名实体和所述语料信息,生成所述命名实体对应的字符序列;所述观点抽取模型的BERT模型根据所述命名实体对应的字符序列,生成所述命名实体对应的字符向量序列;所述观点抽取模型的softmax层根据所述命名实体对应的字符向量序列以及训练所述观点抽取模型时得到的片段开始向量和片段结束向量,确定所述命名实体对应的观点信息。
本发明还提供了一种基于BERT的媒体信息观点抽取设备,所述基于BERT的媒体信息观点抽取设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述任一项所述的基于BERT的媒体信息观点抽取方法的步骤。
本发明还提供了一种存储介质,所述存储介质上存储有基于BERT的媒体信息观点抽取程序,所述基于BERT的媒体信息观点抽取程序被处理器执行时实现上述任一项所述的基于BERT的媒体信息观点抽取方法的步骤。
本发明有益效果如下:
本发明在语料信息中识别命名实体,将命名实体作为观点持有人,并将命名实体和语料信息的组合输入训练完成的观点抽取模型中,观点抽取模型基于BERT模型和softmax层在语料信息中抽取命名实体对应的观点信息,可以减轻人工抽取观点信息的工作量,提升观点信息抽取的准确性。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明一实施例的基于BERT的媒体信息观点抽取方法的流程图;
图2是根据本发明一实施例的观点抽取模型的执行步骤流程图;
图3是根据本发明一实施例的观点抽取模型的训练步骤流程图;
图4是根据本发明一实施例的基于BERT的媒体信息观点抽取装置的结构图;
图5是根据本发明一实施例的基于BERT的媒体信息观点抽取设备的结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,以下结合附图及具体实施例,对本发明作进一步地详细说明。
根据本发明的实施例,提供了一种基于BERT的媒体信息观点抽取方法。如图1所示,为根据本发明一实施例的基于BERT的媒体信息观点抽取方法的流程图。
步骤S110,获取观点待抽取的语料信息。
在本实施例中,语料信息为媒体信息。进一步地,语料信息为中文新闻文本中的段落。
在获取到中文新闻文本之后,对该中文新闻文本进行段落划分,将每个段落作为一个观点待抽取的语料信息;通过本发明实施例的观点抽取方法顺序对每个语料信息的观点信息进行抽取。
步骤S120,利用预设的命名实体识别算法,识别所述语料信息中的命名实体。
在本实施例中,所述命名实体的类型包括:人名和机构名称。进一步地,为了增加观点的信服力,可以将观点归属到一个可靠的来源上,该来源一般为语料信息中的命名实体,因此可以识别语料信息中的命名实体。
在本实施例中,语料信息中可能不包含命名实体,当然,也可能包含一个或者多个命名实体。
步骤S130,将所述命名实体和所述语料信息输入预先训练的观点抽取模型中,并获取所述观点抽取模型输出的所述命名实体对应的观点信息。
观点抽取模型,用于根据输入的命名实体和语料信息,确定该命名实体对应的观点信息。命名实体可以作为观点持有人。
在本实施例中,语料信息为待提取观点信息的原文本。命名实体用于指导观点抽取模型抽取观点信息。
如果利用预设的命名实体识别算法,在语料信息中未识别出命名实体,则输出预设内容的提示信息和/或舍弃该语料信息。该预设内容的提示信息用于提示用户语料信息中无观点信息。该预设内容的提示信息可以是“语料中无观点信息”。
如果在所述语料信息中识别出一个命名实体,则将所述语料信息以及在所述语料信息中识别出的命名实体输入所述观点抽取模型。
如果在所述语料信息中识别出多个命名实体,则计算所述语料信息和所述多个命名实体的笛卡尔乘积,得到多个组合;每个所述组合包括所述语料信息以及在所述语料信息中识别出的一个命名实体;将所述多个组合顺序输入所述观点抽取模型。也即是说,每次向观点抽取模型输入语料信息以及命名实体时,输入的命名实体不重复。
在将语料信息和命名实体输入观点抽取模型中之前,还需要对观点抽取模型进行训练,使得观点抽取模型可以将命名实体作为观点持有人,在语料信息中抽取命名实体对应的观点信息。
在本实施例中,采用有监督的方式训练观点抽取模型,利用训练完成的观点抽取模型抽取语料信息中的观点信息。进一步地,本实施例在语料信息中识别命名实体,将命名实体作为观点持有人,并将命名实体和语料信息的组合输入训练完成的观点抽取模型中,观点抽取模型基于BERT模型和softmax层在语料信息中抽取命名实体对应的观点信息,可以减轻人工抽取观点信息的工作量,提升观点信息抽取的准确性。
本实施例可以应用在网络舆情分析中,抽取中文新闻语料中的观点信息,方便分析人员从大量新闻文本中获取结构化的有用的信息。
下面对观点抽取模型对所述语料信息和所述命名实体执行的观点信息抽取步骤进行描述。
在本实施例中,观点抽取模型是基于BERT模型和softmax层构建的。
如图2所示,为根据本发明一实施例的观点抽取模型的执行步骤流程图。
步骤S210,观点抽取模型根据命名实体和语料信息,生成所述命名实体对应的字符序列。
观点抽取模型根据输入的命名实体和语料信息,拼接所述命名实体的字符和所述语料信息的字符,得到所述命名实体对应的字符序列。
如果在所述语料信息中识别出一个命名实体,则观点抽取模型拼接所述命名实体的字符和所述语料信息的字符,得到所述命名实体对应的字符序列。
如果在所述语料信息中识别出多个命名实体,则观点抽取模型拼接输入的组合中的命名实体和语料信息,得到该组合中的命名实体对应的字符序列。
拼接所述命名实体的字符和所述语料信息的字符,包括:连接所述命名实体的字符和所述语料信息的字符,形成字符串;在所述字符串的第一个字符之前添加第一预设标记,在所述字符串的最后一个字符之后添加第二预设标记;在所述命名实体的字符和所述语料信息的字符之间插入第三预设标记。
进一步地,按照命名实体的字符在前,语料信息的字符在后的顺序,连接命名实体的字符和语料信息的字符。第一预设标记可以是[cls]。第二预设标记可以是[sep]。第三预设标记可以与第二预设标记相同。
这样,在字符序列中,包括命名实体对应的字符、语料信息对应的字符、第一预设标记、第二预设标记和第三预设标记。
步骤S220,所述观点抽取模型的BERT模型根据所述命名实体对应的字符序列,生成所述命名实体对应的字符向量序列。
BERT模型对命名实体对应的字符序列进行字嵌入(token embedding)处理、位置嵌入(position embedding)处理和句嵌入(segment embedding)处理,得到命名实体对应的字符向量序列。
该字嵌入处理,用于将字符序列中的每个字符初始化为固定长度的字符向量。
位置嵌入处理,用于对字符序列中的每个字符添加位置标签。进一步地,由于文本不同位置的字符所携带的语义信息存在差异,所以BERT模型通过位置嵌入处理对这些字符的位置加以区分。
该句嵌入处理,用于对字符序列中语料信息对应的字符添加语料信息标签,为字符序列中命名实体对应的字符添加命名实体标签。
将字嵌入处理的结果、位置嵌入处理的结果和句嵌入处理的结果求和,将求和结果输入到BERT模型的双向Transformer(双向编码器)当中,得到该双向Transformer输出的字符向量序列。
这样,在字符向量序列中,包括命名实体对应的字符向量、语料信息对应的字符向量、第一预设标记的字符向量、第二预设标记的字符向量和第三预设标记的字符向量。也即是说,在该字符向量序列中,每个字符向量对应语料信息中的一个字符或者命名实体中的一个字符或者预设标记(第一预设标记、第二预设标记和第三预设标记),根据为字符向量序列中的字符向量添加的标签,可以区分字符向量的位置以及对应的语料信息中的字符或者命名实体中的字符。
步骤S230,所述观点抽取模型的softmax层根据所述命名实体对应的字符向量序列以及训练所述观点抽取模型时得到的片段开始向量和片段结束向量,确定所述命名实体对应的观点信息。
片段开始向量和片段结束向量/>都为softmax层中的参数。片段开始向量S和片段结束向量E都为多维向量。
所述softmax层根据所述字符向量序列,所述片段开始向量和所述片段结束向量,计算所述语料信息中任意两个位置之间的字符作为观点的概率值;在计算出的所有概率值中,确定大于预设观点阈值(σ)的概率值;在所述大于预设观点阈值的概率值中,确定大于零观点概率值(snull)以及预设基准阈值(τ)的和的概率值,作为目标概率值;其中,所述零观点概率值是所述softmax层根据所述字符向量序列,所述片段开始向量和所述片段结束向量,计算所述语料信息中观点开始位置和结束位置都指向第一预设标记([cls]标记)的字符的概率值;将所述目标概率值对应的两个位置之间的字符形成的语料片段作为所述命名实体对应的观点信息。进一步地,目标概率值>(σ+snull+τ)。
可以采用如下的表达式来计算语料信息中任意两个位置之间的字符的概率值:
S·Ta+E·Tb
其中,S表示片段开始向量;Ta表示语料信息中的字符a在字符向量序列中对应的字符向量;E表示片段结束向量;Tb表示语料信息中的字符b在字符向量序列中对应的字符向量,Ta的向量位置序号小于等于Tb的向量位置序号。
在计算零观点概率值时,同样使用表达式S·Ta+E·Tb来计算,其中,Ta和Tb都为第一预设标签(如:[cls]标记)的字符向量。
在本实施例中,在将命名实体和语料信息输入观点抽取模型中之前,还包括:基于BERT模型和softmax层构建观点抽取模型;根据预先构建的训练数据集,训练所述观点抽取模型。
在所述训练数据集中包括多个样本信息对;每个样本信息对包括样本语料信息和在所述样本语料信息中识别出的一个样本命名实体,并且为每个所述样本信息对标注出是否存在观点的标记,观点信息以及观点开始位置。其中,是否存在观点的标记可以是布尔值。如果样本信息对中的样本语料信息包括命名实体发表的观点信息,则布尔值为true,如果样本信息对中的样本语料信息不包括命名实体发表的观点信息,则布尔值为false。
观点开始位置是指样本语料信息中观点信息开始的字符位置。相应的,观点信息结束的字符位置为观点结束位置。
下面对训练所述观点抽取模型的步骤进行描述。
其中,BERT模型是预训练语言模型。也即是说,在构建观点抽取模型时,BERT模型已经经历过预训练处理。
具体的,BERT模型首先利用大规模的无标注文本语料进行语言模型预训练,获得包含丰富语义信息的文本语义表示,然后通过微调可以将BERT模型应用到具体的下游NLP任务(例如:序列标注、分类)。为了训练一个能理解文本深度语义信息和句子关系的BERT模型,BERT优化了两个任务:遮蔽语言任务(masked language model,简称MLM)和下一句预测(Next Sentence Prediction,简称NSP)任务。MLM也称为完形填空测试,优化MLM任务包括:在每个句子中随机遮蔽15%的字,让MLM任务预测被遮蔽的字,达到训练一个能理解语义的深度双向预训练模型的目的。优化NSP任务是将多个句子对(句子A和句子B)作为NSP任务的输入,在多个句子对中,50%的情况下B是真的在A后面的下一个句子,50%的情况下B是来自语料库的随机句子,训练NSP任务判断B是否为A的下一句。通过训练BERT模块可以使BERT模块能够更好的理解两个句子之间的关系。
在构建观点抽取模型之后,通过训练观点抽取模型,可以对BERT模型中的参数进行微调,使得观点抽取模型的抽取结果更加准确。微调是指使用预训练好的BERT模型的权重作为初始值开始训练,针对观点信息抽取问题,在BERT模型上拼接一层softmax网络(softmax层),softmax层的参数取随机权重作为初始值,然后通过训练,重新微调模型参数,得到训练好的观点抽取模型,后续用来做预测。
如图3所示,为根据本发明一实施例的观点抽取模型的训练步骤流程图。
步骤S310,初始化softmax层中的片段开始向量和片段结束向量。
在初始化片段开始向量和片段结束向量时,可以将片段开始向量和片段结束向量中的向量值都设置为随机数值。
步骤S320,从训练数据集中获取一个样本信息对,作为训练信息对。
步骤S330,将所述训练信息对输入观点抽取模型,所述观点抽取模型生成所述训练信息对中的样本命名实体对应的样本字符序列;所述BERT模型根据所述样本字符序列,生成所述样本命名实体对应的样本字符向量序列;所述softmax层根据当前调整的片段开始向量和片段结束向量以及所述样本字符向量序列,计算所述训练信息对中的样本语料信息的每个字符作为观点开始位置的概率以及作为观点结束位置的概率。
观点抽取模型生成训练信息对中的样本命名实体对应的样本字符序列的步骤,以及BERT模型根据样本字符序列,生成样本命名实体对应的样本字符向量序列的步骤,可以参考图2的步骤执行。
Softmax层的输入是字符向量序列,输出是每个字符作为观点开始位置的概率和作为观点结束位置的概率。其中,样本语料信息对应的所有字符分别作为观点开始位置的概率的和为1,以及样本语料信息对应的所有字符分别作为观点结束位置的概率的和为1。
可以采用如下softmax函数来计算字符作为观点开始位置的概率:
其中,Pi表示样本语料信息的第i个字符作为观点开始位置的概率,Ti表示该第i个字符在样本字符向量序列中对应的字符向量,i∈[1,M];S表示片段开始向量;Tj表示样本语料信息的第j个字符在样本字符向量序列中对应的字符向量,j∈[1,M];M为样本字符向量序列中样本语料信息对应的字符向量总个数,也是样本语料信息中的字符总个数。
可以采用如下softmax函数来计算字符作为观点结束位置的概率:
其中,Qi表示样本语料信息的第i个字符作为观点结束位置的概率;E表示片段结束向量。
从通过Softmax函数将与样本语料信息的字符映射为一个(0,1)之间的概率分布,每一维的数值就代表一个字符作为片段开始位置的概率,所有维的和为1。
步骤S340,根据预设的最小化风险函数策略,为所述训练信息对被标注出的是否存在观点的标记,观点信息以及观点开始位置,所述训练信息对中的样本语料信息的每个字符作为观点开始位置的概率以及作为观点结束位置的概率,计算所述观点抽取模型的损失值。
在本实施例中,所述最小化风险函数为交叉熵损失函数。
可以采用如下表达式来计算观点抽取模型的损失值:
其中,L(E,S,W)表示观点抽取模型的损失值;E为片段结束向量;S示为片段开始向量;W为BERT模型中的参数;log是以10为底的对数函数;ysj和yej都为辅助参数。
其中,如果根据为训练样本对预先标注的是否存在观点的标记,确定训练样本对中的样本语料信息中不存在观点信息,则ysj和yej都为0。如果根据为训练样本对预先标注的是否存在观点的标记,确定训练样本对中的样本语料信息中不存在观点信息,则可以根据为训练信息对预先标注的观点开始位置,确定样本语料信息的第j个字符是否为观点开始位置;根据为训练信息对预先标注的观点信息和观点开始位置(观点开始位置加上观点信息的字符数,可以得到观点结束位置的字符),确定样本语料信息的第j个字符是否为观点结束位置。
步骤S350,判断所述损失值是否小于预设的损失阈值;如果是,则执行步骤S360;如果否,则执行步骤S370。
在本实施例中,该损失阈值为经验值或者通过实验获得的值。
步骤S360,如果所述损失值小于所述预设的损失阈值,则确定所述观点抽取模型已经收敛。
观点抽取模型收敛之后,可以停止对观点抽取模型的训练。
步骤S370,如果所述损失值大于或等于所述预设的损失阈值,则调整所述观点抽取模型中的参数并跳转到步骤S320。
所述观点抽取模型中的参数,包括:BERT模型中的参数,softmax层中的片段开始向量和片段结束向量。
本实施例还提供一种基于BERT的媒体信息观点抽取装置。如图4所示,为根据本发明一实施例的基于BERT的媒体信息观点抽取装置的结构图。
该装置包括:获取模块410,识别模块420和抽取模块430。
获取模块410,用于获取观点待抽取的语料信息。
识别模块420,用于利用预设的命名实体识别算法,识别所述语料信息中的命名实体。
抽取模块430,用于将所述命名实体和所述语料信息输入预先训练的观点抽取模型中,并获取所述观点抽取模型输出的所述命名实体对应的观点信息;其中,所述观点抽取模型根据所述命名实体和所述语料信息,生成所述命名实体对应的字符序列;所述观点抽取模型的BERT模型根据所述命名实体对应的字符序列,生成所述命名实体对应的字符向量序列;所述观点抽取模型的softmax层根据所述命名实体对应的字符向量序列以及训练所述观点抽取模型时得到的片段开始向量和片段结束向量,确定所述命名实体对应的观点信息。
本实施例所述的装置的功能已经在上述方法实施例中进行了描述,故本实施例的描述中未详尽之处,可以参见前述实施例中的相关说明,在此不做赘述。
本实施例提供一种基于BERT的媒体信息观点抽取设备。如图5所示,为根据本发明一实施例的基于BERT的媒体信息观点抽取设备的结构图。
在本实施例中,所述基于BERT的媒体信息观点抽取设备,包括但不限于:处理器510、存储器520。
所述处理器510用于执行存储器520中存储的基于BERT的媒体信息观点抽取程序,以实现上述的基于BERT的媒体信息观点抽取方法。
具体而言,所述处理器510用于执行存储器520中存储的基于BERT的媒体信息观点抽取程序,以实现以下步骤:获取观点待抽取的语料信息;利用预设的命名实体识别算法,识别所述语料信息中的命名实体;将所述命名实体和所述语料信息输入预先训练的观点抽取模型中,并获取所述观点抽取模型输出的所述命名实体对应的观点信息;其中,所述观点抽取模型根据所述命名实体和所述语料信息,生成所述命名实体对应的字符序列;所述观点抽取模型的BERT模型根据所述命名实体对应的字符序列,生成所述命名实体对应的字符向量序列;所述观点抽取模型的softmax层根据所述命名实体对应的字符向量序列以及训练所述观点抽取模型时得到的片段开始向量和片段结束向量,确定所述命名实体对应的观点信息。
其中,所述将所述命名实体和所述语料信息输入预先训练的观点抽取模型中,包括:如果在所述语料信息中识别出一个命名实体,则将所述语料信息以及在所述语料信息中识别出的命名实体输入所述观点抽取模型;如果在所述语料信息中识别出多个命名实体,则计算所述语料信息和所述多个命名实体的笛卡尔乘积,得到多个组合;每个所述组合包括所述语料信息以及在所述语料信息中识别出的一个命名实体;将所述多个组合顺序输入所述观点抽取模型;所述观点抽取模型根据所述命名实体和所述语料信息,生成所述命名实体对应的字符序列,包括:所述观点抽取模型根据输入的所述命名实体和所述语料信息,拼接所述命名实体的字符和所述语料信息的字符,得到所述命名实体对应的字符序列。
其中,所述拼接所述命名实体的字符和所述语料信息的字符,包括:连接所述命名实体的字符和所述语料信息的字符,形成字符串;在所述字符串的第一个字符之前添加第一预设标记,在所述字符串的最后一个字符之后添加第二预设标记;在所述命名实体的字符和所述语料信息的字符之间插入第三预设标记。
其中,所述观点抽取模型的softmax层根据所述命名实体对应的字符向量序列以及训练所述观点抽取模型时得到的片段开始向量和片段结束向量,确定所述命名实体对应的观点信息,包括:所述softmax层根据所述字符向量序列,所述片段开始向量和所述片段结束向量,计算所述语料信息中任意两个位置之间的字符作为观点的概率值;在计算出的所有概率值中,确定大于预设观点阈值的概率值;在所述大于预设观点阈值的概率值中,确定大于零观点概率值以及预设基准阈值的和的概率值,作为目标概率值;其中,所述零观点概率值是所述softmax层根据所述字符向量序列,所述片段开始向量和所述片段结束向量,计算所述语料信息中观点开始位置和观点结束位置都指向第一预设标记的字符的概率值;将所述目标概率值对应的两个位置之间的字符形成的语料片段作为所述命名实体对应的观点信息。
其中,在所述将所述语料信息和所述命名实体输入预先训练的观点抽取模型中之前,还包括:根据预先构建的训练数据集,训练所述观点抽取模型;在所述训练数据集中包括多个样本信息对;每个样本信息对包括样本语料信息和在所述样本语料信息中识别出的一个样本命名实体,并且为每个所述样本信息对标注出是否存在观点的标记,观点信息以及观点开始位置;所述训练所述观点抽取模型的步骤,包括:步骤S2,初始化softmax层中的所述片段开始向量和所述片段结束向量;步骤S4,从所述训练数据集中获取一个样本信息对,作为训练信息对;步骤S6,将所述训练信息对输入所述观点抽取模型,所述观点抽取模型生成所述训练信息对中的样本命名实体对应的样本字符序列;所述BERT模型根据所述样本字符序列,生成所述样本命名实体对应的样本字符向量序列;所述softmax层根据当前调整的片段开始向量和片段结束向量以及所述样本字符向量序列,计算所述训练信息对中的样本语料信息的每个字符作为观点开始位置的概率以及作为观点结束位置的概率;步骤S8,根据预设的最小化风险函数策略,为所述训练信息对被标注出的是否存在观点的标记,观点信息以及观点开始位置,所述训练信息对中的样本语料信息的每个字符作为观点开始位置的概率以及作为观点结束位置的概率,计算所述观点抽取模型的损失值;步骤S10,如果所述损失值小于预设的损失阈值,则确定所述观点抽取模型已经收敛;反之,则调整所述观点抽取模型中的参数以及所述最小化风险函数策略并跳转到步骤S4;所述观点抽取模型中的参数包括:所述BERT模型中的参数以及所述softmax层中的片段开始向量和片段结束向量。
其中,所述最小化风险函数为交叉熵损失函数。
其中,所述命名实体的类型包括:人名和机构名称。
本发明实施例还提供了一种存储介质。这里的存储介质存储有一个或者多个程序。其中,存储介质可以包括易失性存储器,例如随机存取存储器;存储器也可以包括非易失性存储器,例如只读存储器、快闪存储器、硬盘或固态硬盘;存储器还可以包括上述种类的存储器的组合。
当存储介质中一个或者多个程序可被一个或者多个处理器执行,以实现上述的基于BERT的媒体信息观点抽取方法。
具体而言,所述处理器用于执行存储器中存储的基于BERT的媒体信息观点抽取程序,以实现上述的基于BERT的媒体信息观点抽取方法的步骤。由于所述基于BERT的媒体信息观点抽取方法已经在上面进行了详细描述,故在此不做赘述。
以上所述仅为本发明的实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (9)

1.一种基于BERT的媒体信息观点抽取方法,其特征在于,包括:
获取观点待抽取的语料信息;
利用预设的命名实体识别算法,识别所述语料信息中的命名实体;
将所述命名实体和所述语料信息输入预先训练的观点抽取模型中,并获取所述观点抽取模型输出的所述命名实体对应的观点信息;其中,
所述观点抽取模型根据所述命名实体和所述语料信息,生成所述命名实体对应的字符序列,包括:观点抽取模型根据输入的命名实体和语料信息,拼接所述命名实体的字符和所述语料信息的字符,得到所述命名实体对应的字符序列,其中,所述拼接所述命名实体的字符和所述语料信息的字符,包括:连接所述命名实体的字符和所述语料信息的字符,形成字符串;在所述字符串的第一个字符之前添加第一预设标记,在所述字符串的最后一个字符之后添加第二预设标记;在所述命名实体的字符和所述语料信息的字符之间插入第三预设标记;
所述观点抽取模型的BERT模型根据所述命名实体对应的字符序列,生成所述命名实体对应的字符向量序列;
所述观点抽取模型的softmax层根据所述命名实体对应的字符向量序列以及训练所述观点抽取模型时得到的片段开始向量和片段结束向量,确定所述命名实体对应的观点信息,其中,片段开始向量和片段结束向量为softmax层中的参数,片段开始向量片段结束向量都为多维向量。
2.根据权利要求1所述的方法,其特征在于,
所述将所述命名实体和所述语料信息输入预先训练的观点抽取模型中,包括:
如果在所述语料信息中识别出一个命名实体,则将所述语料信息以及在所述语料信息中识别出的命名实体输入所述观点抽取模型;
如果在所述语料信息中识别出多个命名实体,则计算所述语料信息和所述多个命名实体的笛卡尔乘积,得到多个组合;每个所述组合包括所述语料信息以及在所述语料信息中识别出的一个命名实体;将所述多个组合顺序输入所述观点抽取模型。
3.根据权利要求1所述的方法,其特征在于,所述观点抽取模型的softmax层根据所述命名实体对应的字符向量序列以及训练所述观点抽取模型时得到的片段开始向量和片段结束向量,确定所述命名实体对应的观点信息,包括:
所述softmax层根据所述字符向量序列,所述片段开始向量和所述片段结束向量,计算所述语料信息中任意两个位置之间的字符作为观点的概率值;
在计算出的所有概率值中,确定大于预设观点阈值的概率值;
在所述大于预设观点阈值的概率值中,确定大于零观点概率值以及预设基准阈值的和的概率值,作为目标概率值;其中,所述零观点概率值是所述softmax层根据所述字符向量序列,所述片段开始向量和所述片段结束向量,计算所述语料信息中观点开始位置和观点结束位置都指向所述第一预设标记的字符的概率值;
将所述目标概率值对应的两个位置之间的字符形成的语料片段作为所述命名实体对应的观点信息。
4.根据权利要求3所述的方法,其特征在于,在所述将所述语料信息和所述命名实体输入预先训练的观点抽取模型中之前,还包括:
根据预先构建的训练数据集,训练所述观点抽取模型;在所述训练数据集中包括多个样本信息对;每个样本信息对包括样本语料信息和在所述样本语料信息中识别出的一个样本命名实体,并且为每个所述样本信息对标注出是否存在观点的标记,观点信息以及观点开始位置;
所述训练所述观点抽取模型的步骤,包括:
步骤S2,初始化softmax层中的所述片段开始向量和所述片段结束向量;
步骤S4,从所述训练数据集中获取一个样本信息对,作为训练信息对;
步骤S6,将所述训练信息对输入所述观点抽取模型,所述观点抽取模型生成所述训练信息对中的样本命名实体对应的样本字符序列;所述BERT模型根据所述样本字符序列,生成所述样本命名实体对应的样本字符向量序列;所述softmax层根据当前调整的片段开始向量和片段结束向量以及所述样本字符向量序列,计算所述训练信息对中的样本语料信息的每个字符作为观点开始位置的概率以及作为观点结束位置的概率;
步骤S8,根据预设的最小化风险函数策略,为所述训练信息对被标注出的是否存在观点的标记,观点信息以及观点开始位置,所述训练信息对中的样本语料信息的每个字符作为观点开始位置的概率以及作为观点结束位置的概率,计算所述观点抽取模型的损失值;
步骤S10,如果所述损失值小于预设的损失阈值,则确定所述观点抽取模型已经收敛;反之,则调整所述观点抽取模型中的参数并跳转到步骤S4;所述观点抽取模型中的参数包括:所述BERT模型中的参数以及所述softmax层中的片段开始向量和片段结束向量。
5.根据权利要求4所述的方法,其特征在于,所述最小化风险函数为交叉熵损失函数。
6.根据权利要求1~5中任一项所述方法,其特征在于,所述命名实体的类型包括:人名和机构名称。
7.一种基于BERT的媒体信息观点抽取装置,其特征在于,包括:
获取模块,用于获取观点待抽取的语料信息;
识别模块,用于利用预设的命名实体识别算法,识别所述语料信息中的命名实体;
抽取模块,用于将所述命名实体和所述语料信息输入预先训练的观点抽取模型中,并获取所述观点抽取模型输出的所述命名实体对应的观点信息;其中,所述观点抽取模型根据所述命名实体和所述语料信息,生成所述命名实体对应的字符序列,包括:观点抽取模型根据输入的命名实体和语料信息,拼接所述命名实体的字符和所述语料信息的字符,得到所述命名实体对应的字符序列,其中,所述拼接所述命名实体的字符和所述语料信息的字符,包括:连接所述命名实体的字符和所述语料信息的字符,形成字符串;在所述字符串的第一个字符之前添加第一预设标记,在所述字符串的最后一个字符之后添加第二预设标记;在所述命名实体的字符和所述语料信息的字符之间插入第三预设标记;所述观点抽取模型的BERT模型根据所述命名实体对应的字符序列,生成所述命名实体对应的字符向量序列;所述观点抽取模型的softmax层根据所述命名实体对应的字符向量序列以及训练所述观点抽取模型时得到的片段开始向量和片段结束向量,确定所述命名实体对应的观点信息,其中,片段开始向量和片段结束向量为softmax层中的参数,片段开始向量片段结束向量都为多维向量。
8.一种基于BERT的媒体信息观点抽取设备,其特征在于,所述基于BERT的媒体信息观点抽取设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1~6中任一项所述的基于BERT的媒体信息观点抽取方法的步骤。
9.一种存储介质,其特征在于,所述存储介质上存储有基于BERT的媒体信息观点抽取程序,所述基于BERT的媒体信息观点抽取程序被处理器执行时实现如权利要求1~6中任一项所述的基于BERT的媒体信息观点抽取方法的步骤。
CN202010060445.4A 2020-01-19 2020-01-19 基于bert的媒体信息观点抽取方法、装置、设备和存储介质 Active CN113139116B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010060445.4A CN113139116B (zh) 2020-01-19 2020-01-19 基于bert的媒体信息观点抽取方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010060445.4A CN113139116B (zh) 2020-01-19 2020-01-19 基于bert的媒体信息观点抽取方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN113139116A CN113139116A (zh) 2021-07-20
CN113139116B true CN113139116B (zh) 2024-03-01

Family

ID=76808785

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010060445.4A Active CN113139116B (zh) 2020-01-19 2020-01-19 基于bert的媒体信息观点抽取方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN113139116B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115658994A (zh) * 2022-11-04 2023-01-31 南京擎盾信息科技有限公司 舆情观点报告生成方法、装置、存储介质及电子装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108604310A (zh) * 2015-12-31 2018-09-28 威拓股份有限公司 用于使用神经网络架构来控制分配系统的方法、控制器和系统
CN108628828A (zh) * 2018-04-18 2018-10-09 国家计算机网络与信息安全管理中心 一种基于自注意力的观点及其持有者的联合抽取方法
CN108874997A (zh) * 2018-06-13 2018-11-23 广东外语外贸大学 一种面向电影评论的人名命名实体识别方法
CN108984532A (zh) * 2018-07-27 2018-12-11 福州大学 基于层次嵌入的方面抽取方法
CN109902230A (zh) * 2019-02-13 2019-06-18 北京航空航天大学 一种新闻数据的处理方法及装置
CN110032634A (zh) * 2019-04-17 2019-07-19 北京理工大学 一种基于多类型深度特征的中文命名实体识别方法
CN110263319A (zh) * 2019-03-21 2019-09-20 国家计算机网络与信息安全管理中心 一种基于网页文本的学者观点抽取方法
CN110276075A (zh) * 2019-06-21 2019-09-24 腾讯科技(深圳)有限公司 模型训练方法、命名实体识别方法、装置、设备及介质
CN110457693A (zh) * 2019-07-29 2019-11-15 北京智齿博创科技有限公司 基于用户会话行为的细粒度情绪分析方法
CN110704622A (zh) * 2019-09-27 2020-01-17 北京明略软件系统有限公司 文本情感分类方法、装置及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101907041B1 (ko) * 2012-12-17 2018-10-11 한국전자통신연구원 소셜 웹 콘텐츠에서의 예측 기반 리스크 관리 장치 및 그 방법

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108604310A (zh) * 2015-12-31 2018-09-28 威拓股份有限公司 用于使用神经网络架构来控制分配系统的方法、控制器和系统
CN108628828A (zh) * 2018-04-18 2018-10-09 国家计算机网络与信息安全管理中心 一种基于自注意力的观点及其持有者的联合抽取方法
CN108874997A (zh) * 2018-06-13 2018-11-23 广东外语外贸大学 一种面向电影评论的人名命名实体识别方法
CN108984532A (zh) * 2018-07-27 2018-12-11 福州大学 基于层次嵌入的方面抽取方法
CN109902230A (zh) * 2019-02-13 2019-06-18 北京航空航天大学 一种新闻数据的处理方法及装置
CN110263319A (zh) * 2019-03-21 2019-09-20 国家计算机网络与信息安全管理中心 一种基于网页文本的学者观点抽取方法
CN110032634A (zh) * 2019-04-17 2019-07-19 北京理工大学 一种基于多类型深度特征的中文命名实体识别方法
CN110276075A (zh) * 2019-06-21 2019-09-24 腾讯科技(深圳)有限公司 模型训练方法、命名实体识别方法、装置、设备及介质
CN110457693A (zh) * 2019-07-29 2019-11-15 北京智齿博创科技有限公司 基于用户会话行为的细粒度情绪分析方法
CN110704622A (zh) * 2019-09-27 2020-01-17 北京明略软件系统有限公司 文本情感分类方法、装置及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Opinion Mining form Web Documents:Extraction and Structurization;Nozomi Kobayashi 等;《Transactions of the Japanese Society for Artificial Intelligence》;第22卷(第2期);227-238 *
基于餐饮领域中文评论意见挖掘方法的研究;陆未然;《中国优秀硕士学位论文全文数据库信息科技辑》(第01期);I138-2820 *

Also Published As

Publication number Publication date
CN113139116A (zh) 2021-07-20

Similar Documents

Publication Publication Date Title
US11501182B2 (en) Method and apparatus for generating model
US11734328B2 (en) Artificial intelligence based corpus enrichment for knowledge population and query response
CN110096570B (zh) 一种应用于智能客服机器人的意图识别方法及装置
US11288593B2 (en) Method, apparatus and device for extracting information
CN109086357B (zh) 基于变分自动编码器的情感分类方法、装置、设备及介质
CN111783474B (zh) 一种评论文本观点信息处理方法、装置及存储介质
CN111563384B (zh) 面向电商产品的评价对象识别方法、装置及存储介质
CN112069312B (zh) 一种基于实体识别的文本分类方法及电子装置
CN112883193A (zh) 一种文本分类模型的训练方法、装置、设备以及可读介质
US20230069935A1 (en) Dialog system answering method based on sentence paraphrase recognition
WO2023159758A1 (zh) 数据增强方法和装置、电子设备、存储介质
Banik et al. Machine learning based optimized pruning approach for decoding in statistical machine translation
CN113128203A (zh) 基于注意力机制的关系抽取方法、系统、设备及存储介质
CN110750646B (zh) 一种旅店评论文本的属性描述提取方法
US20240143644A1 (en) Event detection
CN111782793A (zh) 智能客服处理方法和系统及设备
CN111859940A (zh) 一种关键词提取方法、装置、电子设备及存储介质
CN113947086A (zh) 样本数据生成方法、训练方法、语料生成方法和装置
Saranya et al. A Machine Learning-Based Technique with IntelligentWordNet Lemmatize for Twitter Sentiment Analysis.
CN114970536A (zh) 一种分词、词性标注和命名实体识别的联合词法分析方法
CN113139116B (zh) 基于bert的媒体信息观点抽取方法、装置、设备和存储介质
CN113705207A (zh) 语法错误识别方法及装置
CN111523311B (zh) 一种搜索意图识别方法及装置
CN107783958B (zh) 一种目标语句识别方法及装置
CN113255319B (zh) 模型训练方法、文本分段方法、摘要抽取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant