CN112100384B - 一种数据观点抽取方法、装置、设备及存储介质 - Google Patents

一种数据观点抽取方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112100384B
CN112100384B CN202011242864.6A CN202011242864A CN112100384B CN 112100384 B CN112100384 B CN 112100384B CN 202011242864 A CN202011242864 A CN 202011242864A CN 112100384 B CN112100384 B CN 112100384B
Authority
CN
China
Prior art keywords
word
model
sequence labeling
label classification
vectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011242864.6A
Other languages
English (en)
Other versions
CN112100384A (zh
Inventor
郭艳波
王兆元
李青龙
白剑波
高媛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Smart Starlight Information Technology Co ltd
Original Assignee
Beijing Smart Starlight Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Smart Starlight Information Technology Co ltd filed Critical Beijing Smart Starlight Information Technology Co ltd
Priority to CN202011242864.6A priority Critical patent/CN112100384B/zh
Publication of CN112100384A publication Critical patent/CN112100384A/zh
Application granted granted Critical
Publication of CN112100384B publication Critical patent/CN112100384B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种数据观点抽取方法、装置、设备及存储介质,方法包括:对文本数据进行分词,形成词向量;将词向量输入到标签分类模型中,标签分类模型包括依次连接的输入层、依次连接的多个中间层、输出层,每个中间层包括多个self‑attention模型,最后一层中间层输出的是与各词向量对应的包含了语义信息的向量,并通过输出层进行分类,获得文本数据的每条语句的至少一个标签分类;将标签分类以及字向量输入到序列标注模型中,序列标注模型的结构与标签分类模型相同,通过序列标注模型识别出主题词和情感词。本发明可以减少误差累积,避免了实体冗余,减少了错误率和计算复杂度。

Description

一种数据观点抽取方法、装置、设备及存储介质
技术领域
本发明涉及深度学习技术领域,具体地说,涉及一种数据观点抽取方法、装置、设备及存储介质。
背景技术
观点抽取问题自提出以来,出现了许多方法和模型,从最开始的基于频率的方法到近年来的基于深度学习的方法,观点抽取的性能获得大幅提升。
其中,基于频率的方法,假设组成观点的主题词和情感词在语料中频繁出现,基于此假设根据频率统计结果识别观点。该方法对于频率高的,容易引入较多噪音,造成准确率不高;对于频率低的,容易出现观点缺失的情况,造成召回率不高。
基于模板规则的方法,通过观察观点的位置信息或主题词与情感词之间的句法或语法关系, 构建词形模板、词性模板、依存关系模板或语义角色模板等进行抽取。该类方法的优点在于抽取的准确率较高, 缺点是需要事先准备好相关词典集合。此外, 模板规则的制定、规则匹配的先后顺序和冲突问题也是基于模板规则方法的难点。
基于条件随机场的方法,爆款隐马尔科夫模型(Hidden Markov model, HMM)、最大熵马尔科夫模型(Maximum entropy Markov model, MEMM)、条件随机场模型(Conditional random fields, CRFs)等传统的序列标注模型。
基于深度学习的方法,可以自动地学习特征,避免了需要大量领域知识的特征提取过程。此外,深度学习因有大量的可调参数和层次结构,因而具有更强的特征表示能力。现有的基于深度学习的方法中,对于主题词和情感词的抽取是基于模型直接从文本中提取出实体,并将实体进行分类到对应的主题词和情感词类别中。然而,由于文本中具有大量的实体,并且其中具有很多与主题和情感无关的词会被一同作为实体识别出来,这样就增加了实体分类的工作量,并有可能降低分类的准确率。
发明内容
本发明首先使用一个多标签分类模型判断语句的标签分类,然后把语句和可能的标签分类输入序列标注模型中。序列标注模型标注出语句中的主题词和情感词,最终结合预测的标签分类和主题词、情感词,将标签分类作为主题词和情感词的关联,输出主题词情感词-关系列表:(主题词,关系,情感词)。主题词和情感词组成观点,标签分类描述该观点所属的标签类别。
本发明的技术方案如下:
一种数据观点抽取方法,包括:
S1,获取包含多条语句的文本数据,对所述文本数据进行分词,形成词向量;
S2,将所述词向量输入到标签分类模型中,所述标签分类模型包括依次连接的输入层、依次连接的多个中间层、输出层,且每个中间层包括多个self-attention模型,最后一层中间层输出的是与各词向量对应的包含了语义信息的向量,并通过输出层进行分类,获得文本数据的每条语句的至少一个标签分类;
S3,将所述标签分类以及所述文本数据对应的字向量输入到序列标注模型中,所述序列标注模型的结构与标签分类模型相同,通过所述序列标注模型识别出主题词和情感词,并将所述标签分类与主题词和情感词组成三元组。
可选地,每个中间层还包括残差连接,每个中间层的输出作为下一中间层的输入,所述残差连接用以将上一中间层的输出与该中间层的多个self-attention模型的输出的组合相加作为该中间层的输出。
可选地,序列标注模型的输出采用实体标记符号来标记不同的字符,其中,B-SUB和I-SUB是主题词的开头和结尾标记,B-OBJ和I-OBJ是情感词的开头和结尾标记,通过查找B-SUB与 B-OBJ在语句中的索引,在所述文本数据中进行索引定位,获得主题词和情感词。
可选地,序列标注模型的输入还包括段向量、位置向量,由字向量、位置向量、段向量以及标签分类对应的标签向量相加作为序列标注模型的输入。
可选地,所述将所述标签分类以及所述文本数据对应的字向量输入到序列标注模型中是指:
将所述标签分类插入到其所属的语句后面,与对应的语句共同作为输入向量输入到序列标注模型中。
可选地,还利用同一语句的多个标签分类将语句切分为分属于不同标签分类的短句,并将切分后的短句分别输入到多个序列标注模型中。
可选地,不同的序列标注模型分别采用不同的语料库训练,序列标注模型与标签分类模型的分类的数量一致,并利用该分类相对应的语料库来训练序列标注模型。
本发明还提供一种数据观点抽取装置,包括:
分词模块,用于获取包含多条语句的文本数据,对所述文本数据进行分词,形成词向量;
标签分类模块,用于将所述词向量输入到标签分类模型中,所述标签分类模型包括依次连接的输入层、依次连接的多个中间层、输出层,且每个中间层包括多个self-attention模型,最后一层中间层输出的是与各词向量对应的包含了语义信息的向量,并通过输出层进行分类,获得文本数据的每条语句的至少一个标签分类;
实体识别模块,用于将所述标签分类以及所述文本数据对应的字向量输入到序列标注模型中,所述序列标注模型的结构与标签分类模型相同,通过所述序列标注模型。
本发明还提供一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的数据观点抽取方法。
本发明还提供一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上所述的数据观点抽取方法。
本发明先通过标签分类模型识别语句所述的标签分类,再通过序列标注模型识别主题词和情感词。由于通常对整体语句的标签分类的识别的准确率优于实体识别,先做标签分类再做实体识别,可以减少误差累积。相比于先做实体识别再做标签分类而产生了多余的没有关系的实体,本发明避免了实体冗余,减少了错误率和计算复杂度。此外,将标签分类模型的输出传递给序列标注模型,建立了标签分类和实体之间的强对应关系。
附图说明
通过结合下面附图对其实施例进行描述,本发明的上述特征和技术优点将会变得更加清楚和容易理解。
图1是表示本发明实施例的数据观点抽取方法的步骤流程图;
图2是表示本发明实施例的标签分类模型的结构示意图;
图3为本发明实施例的数据观点抽取方法的模块示意图;
图4为本发明实施例的实现数据观点抽取方法的电子设备的结构示意图。
具体实施方式
下面将参考附图来描述本发明所述的实施例。本领域的普通技术人员可以认识到,在不偏离本发明的精神和范围的情况下,可以用各种不同的方式或其组合对所描述的实施例进行修正。因此,附图和描述在本质上是说明性的,而不是用于限制权利要求的保护范围。此外,在本说明书中,附图未按比例画出,并且相同的附图标记表示相同的部分。
如图1所示,本实施例的数据观点抽取方法包括以下步骤:
S1,获取文本数据,对所述文本数据进行分词,并形成词向量,所述文本数据包含有多条语句。
分词算法是将语句切分为一系列词语组合的算法,例如“我路过天安门”可以切分为“我/路过/天安门”。可以使用北京大学提供的pkuseg分词模型进行分词,由于该模型具有细分的不同领域的预训练模型,并且也支持使用全新的标注数据进行训练,获得自训练模型。可以更加准确的获得分词结果。
S2,将所述词向量输入到标签分类模型中,所述标签分类模型包括依次连接的输入层10、依次连接的多个中间层20、输出层30,且每个中间层20包括多个self-attention模型。最后一层中间层20输出的是与各词向量对应的包含了语义信息的向量,该向量输入到输出层进行分类,获得每条语句的至少一个的标签分类。可以进行多分类的预测,得到每个分类的概率值,然后根据阈值来获取分类结果。
其中,每个self-attention(自注意力机制)模型通过不同的映射矩阵将词向量映射到不同的子空间,不同的子空间可以让self-attention模型从不同角度识别输入的词向量。因此每个self-attention模型的输出结果会有差异,通过将多个self-attention模型的输出组合可以更优的表达词向量的含义。
例如对于“我到黄果树了”这句话,分词结果是“我/到/黄果树/了”,对于其中的“黄果树”既可能是一个果树,也可能是黄果树瀑布的名字,也可能是一个街道的名字,或者一个店铺名称等。通过将“黄果树”对应的词向量分别输入到不同的self-attention模型,可以得到其代表的不同含义的向量。
其中,每个self-attention模型将词向量看做由键向量和值向量组成的数据对,通过目标词与键向量进行相似性比较来获得各个词与目标词的重要程度和关联程度,通过Softmax计算得到各个词与目标词的相关系数,将相关系数对值向量进行加权求和作为该词向量的self-attention模型值。
每个self-attention模型的具体计算过程包括:
根据目标字和键向量计算两者的相似性或者相关性,获得相似性分值;
对相似性分值进行归一化处理,作为权重系数;
根据权重系数对键向量所对应的值向量进行加权求和,获得目标字的包含上下文语义的词向量。
需要说明的是,一个语句可能具有多个标签分类。例如“风景很好,就是门票有点贵 。” 前半句“风景”的权重高,后半句“门票”的权重高。通过Sigmoid激活函数计算后,得到环境风光、景区价格这个两个类别。
进一步地,每个中间层还包括残差连接,每个中间层的输出作为下一中间层的输入,所述残差连接单元用以将上一中间层的输出与该中间层的多个self-attention模型的输出的组合相加作为该中间层的输出,可以使网络更容易训练。
S3,将所述标签分类模型的输出、以及所述文本数据对应的字向量输入到序列标注模型中,所述序列标注模型的结构与标签分类模型相同,通过所述序列标注模型识别出主题词和情感词,并将所述标签分类与主题词和情感词组成三元组。
具体说,序列标注模型的输入特征既包括了语句对应的字向量,也包括标签分类模型输出的关于语句的标签分类,其中将标签分类插入到当前语句的后面。
例如,“这里的风景很不错”的标签分类插入到该语句的后面,一同输入到序列标注模型去。如下所示,
这里的风景很不错 SEP 环境风光 环境风光 环境风光 环境风光
其中,环境风光就是“这里的风景很不错”的分类标签,将其插入到这个语句的后面,一同输入到序列标注模型。
优选地,序列标注模型的输入还包括段向量、位置向量,由字向量、位置向量、段向量以及标签向量相加作为序列标注模型的输入。其中,位置特征的作用是由于出现在文本不同位置的词所携带的语义信息存在差异,因此,对不同位置的词分别附加一个不同的向量以作区分。其中,段向量用以表示该段文字位于文本中的位置,例如是文本的第几句段,由于不同的语句顺序对于文本的含义也具有影响,添加了段向量一可以更加准确的表达其语义。
例如:第一种方式:“去稻城之前,感觉稻城亚丁太美了,来一趟四川不去一趟稻城感觉都白跑一趟。
去了稻城,感觉太差了,要去牛奶海和五色海,必须在海拔4150米往上走,高海拔行走10公里,累死了。”
第二种方式:“去了稻城,感觉太差了,要去牛奶海和五色海,必须在海拔4150米往上走,高海拔行走10公里,累死了。
去稻城之前,感觉稻城亚丁太美了,川西环线靠脸吃饭的扛把子,影视剧综艺节目争相取景的地方。”
显然第二种方式在开头就迫不及待的讲出了感觉太差了,更能够突出表现出感觉太差的情感。
序列标注模型的输出采用实体标记符号来标记不同的字符,其中,[Padding]将长度不一的输入序列进行补齐,[category]是标签类别的填充符,[##WordPiece]是分词符,[SEP]表示分句符号,用于断开输入语料中的两个语句。B-SUB和I-SUB是主题词的开头和结尾标记,B-OBJ和I-OBJ是情感词的开头和结尾标记,O表示非实体词标记。
通过找到实体标注符主题词起始符“B-SUB”与情感词起始符“B-OBJ”在语句中的索引后,在原始文本中进行索引定位,就可以获得了当前语句中的实体词。并结合模型输入中的标签分类与主题词、情感词组成三元组。包括了主题词、情感词和标签类别。例如“风景”是主题词,“不错”是情感词,“环境风光”是标签类别。
在模型输出的三元组结果上经过进一步的处理,得到最终的处理结果。如:
旅游评论文本:风景还是不错的!
模型抽取结果:风景不错 - 环境风光
(风景不错是观点,环境风光是标签。)
通过以上方式,在先确定语句的标签类别后,再进行实体的识别和分类,以达到关系识别约束实体识别的效果,避免产生过多无意义的实体对,并建立起关系类型和实体对之间的对应关系。
例如,“风景很好,就是门票有点贵”具有两个标签分类,环境风光、景区价格,由于已经确定了这两个标签分类,那么在序列标注模型识别实体的时候,则可以减小其识别实体的误差。具体说,在训练序列标注模型时,将实体类型标记(即主题词和情感词的标记)作为第一句输入,将标签分类标记作为第二句输入。两种标记同时训练,计算两者的损失之和作为整体损失,迭代更新模型参数,以达到整体损失最小的目的。由于没有将实体识别作为一个单独的任务,而是将标签分类模型的标签分类的识别结果作为输入,与命名实体识别任务同时训练,可以达到标签分类识别约束实体识别的效果,避免产生过多无意义的实体对,并建立起标签分类和实体对之间的对应关系。
进一步地,在使用所述标签分类模型、序列标注模型进行预测之前,对所述标签分类模型、序列标注模型进行训练的方法包括:
1、为观点抽取任务搭建了数据标注平台,在标注页面中,人工标注出语句中的主题词、情感词以及观点的标签类型。标注平台涉及数据准备、数据导入、数据标注、数据导出。
第一步,数据准备。数据准备,是基于规则和词典的方式先给旅游数据打上标签。根据打上标签的数据来统计标签情况,了解标签的大概分布。根据标签分布情况,不同标签随机筛选不同的数据量,每个标签的数据量在五百到一千条之间。除此之外,随机筛选一部分未打上标签的数据,和打上标签的数据,一起作为标注数据。
第二步,数据导入。打乱准备好的标注数据,根据每条数据生成两个文件。一个txt文件,存放一条待标注的文本数据;一个ann文件,存放标注人员对这条数据的标注结果。因为还未开始标注,此时ann文件需为空。将所有的txt文件和ann文件导入标注平台。
第三步,数据标注。打开标注工具,以一条数据为单位,进行标注。将数据中出现的能搭配上的主题词、情感词都标注上,并标注出该主题词和情感词组合之后的标签类型。
第四步,数据导出。每一行为一项标注内容,比如第一行是情感,第二行是标签类型,第三行是主题词。
如图3所示,是本发明数据观点抽取装置一实施例的功能模块示意图。
本发明的数据观点抽取装置100可以安装于电子设备中。根据实现的功能,所述数据观点抽取装置100可以包括分词模块101、标签分类模块102、实体识别模块103。本发明所述模块是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块的功能如下:
分词模块101,用于获取文本数据,对所述文本数据进行分词,并形成词向量,所述文本数据包含有多个语句。
分词算法是将语句切分为一系列词语组合的算法,例如“我路过天安门”可以切分为“我/路过/天安门”。可以使用北京大学提供的pkuseg分词模型进行分词,由于该模型具有细分的不同领域的预训练模型,并且也支持使用全新的标注数据进行训练,获得自训练模型。可以更加准确的获得分词结果。
标签分类模块102,用于将所述词向量输入到标签分类模型中,所述标签分类模型包括依次连接的输入层10、依次连接的多个中间层20、输出层30,且每个中间层20包括多个self-attention模型。最后一层中间层20输出的是与各词向量对应的包含了语义信息的向量,该向量输入到输出层进行分类,获得该语句的标签分类。可以进行多分类的预测,得到每个分类的概率值,然后根据阈值来获取分类结果。
其中,每个self-attention模型通过不同的映射矩阵将词向量映射到不同的子空间,不同的子空间可以让self-attention模型从不同角度识别输入的词向量。因此每个self-attention模型的输出结果会有差异,通过将多个self-attention模型的输出组合可以更优的表达词向量的含义。
例如对于“我到黄果树了”这句话,分词结果是“我/到/黄果树/了””,对于其中的“黄果树”既可能是一个果树,也可能是黄果树瀑布的名字,也可能是一个街道的名字,或者一个店铺名称等。通过将“黄果树”对应的词向量分别输入到不同的self-attention模型,可以得到其代表的不同含义的向量。
其中,每个self-attention模型将词向量看做由键向量和值向量组成的数据对,通过目标字与键向量进行相似性比较来寻找对应的值向量,可能从每个键向量都可以取出对应的值向量,取出内容的重要性根据目标字和键向量的相似性来决定,对值向量进行加权求和作为该词向量的self-attention模型值。
每个self-attention模型的具体计算过程包括:
根据目标字和键向量计算两者的相似性或者相关性,获得相似性分值;
对相似性分值进行归一化处理,作为权重系数;
根据权重系数对键向量所对应的值向量进行加权求和,获得目标字的包含上下文语义的词向量。
需要说明的是,一个语句可能具有多个标签分类。例如“风景很好,就是门票有点贵 。” 前半句“风景”的权重高,后半句“门票”的权重高。通过Sigmoid激活函数计算后,得到环境风光、景区价格这个两个类别。
进一步地,每个中间层还包括残差连接,每个中间层的输出作为下一中间层的输入,所述残差连接单元用以将上一中间层的输出与该中间层的多个self-attention模型的输出的组合相加作为该中间层的输出,可以使网络更容易训练。
实体识别模块103,用于将所述标签分类模型的输出、以及所述文本数据对应的字向量输入到序列标注模型中,所述序列标注模型的结构与标签分类模型相同,通过所述序列标注模型识别出主题词和情感词,并将所述标签分类与主题词和情感词组成三元组。
具体说,序列标注模型的输入特征既包括了语句对应的字向量,也包括标签分类模型输出的关于语句的标签分类,其中将标签分类插入到当前语句的后面。
例如,“这里的风景很不错”的标签分类插入到该语句的后面,同样采用分词的方式处理,并一同输入到序列标注模型去。如下所示,
这里的风景很不错 SEP 环境风光 环境风光 环境风光 环境风光
其中,环境风光就是“这里的风景很不错”的分类标签,将其插入到这个语句的后面,一同输入到序列标注模型。
优选地,序列标注模型的输入还包括段向量、位置向量,由字向量、位置向量、段向量以及标签向量相加作为序列标注模型的输入。其中,位置特征的作用是由于出现在文本不同位置的词所携带的语义信息存在差异,因此,对不同位置的词分别附加一个不同的向量以作区分。其中,段向量用以表示该段文字位于文本中的位置,例如是文本的第几句段,由于不同的语句顺序对于文本的含义也具有影响,添加了段向量一可以更加准确的表达其语义。
例如:第一种方式:“去稻城之前,感觉稻城亚丁太美了,来一趟四川不去一趟稻城感觉都白跑一趟。
去了稻城,感觉太差了,要去牛奶海和五色海,必须在海拔4150米往上走,高海拔行走10公里,累死了。”
第二种方式:“去了稻城,感觉太差了,要去牛奶海和五色海,必须在海拔4150米往上走,高海拔行走10公里,累死了。
去稻城之前,感觉稻城亚丁太美了,川西环线靠脸吃饭的扛把子,影视剧综艺节目争相取景的地方。”
显然第二种方式在开头就迫不及待的讲出了感觉太差了,更能够突出表现出感觉太差的情感。
序列标注模型的输出采用实体标记符号来标记不同的字符,其中,[Padding]将长度不一的输入序列进行补齐,[category]是标签类别的填充符,[##WordPiece]是分词符,[SEP]表示分句符号,用于断开输入语料中的两个语句。B-SUB和I-SUB是主题词的开头和结尾标记,B-OBJ和I-OBJ是情感词的开头和结尾标记,O表示非实体词标记。
通过找到实体标注符主题词起始符“B-SUB“与情感词起始符“B-OBJ“在语句中的索引后,在原始文本中进行索引定位,就可以获得了当前语句中的实体词。并结合模型输入中的标签分类与主题词、情感词组成三元组。包括了主题词、情感词和标签类别。例如“风景”是主题词,“不错”是情感词,“环境风光”是标签类别。
在模型输出的三元组结果上经过进一步的处理,得到最终的处理结果。如:
旅游评论文本:风景还是不错的!
模型抽取结果:风景不错 - 环境风光
(风景不错是观点,环境风光是标签。)
通过以上方式,在先确定语句的标签类别后,再进行实体的识别和分类,以达到关系识别约束实体识别的效果,避免产生过多无意义的实体对,并建立起关系类型和实体对之间的对应关系。
例如,“风景很好,就是门票有点贵”具有两个标签分类,环境风光、景区价格,由于已经确定了这两个标签分类,那么在序列标注模型识别实体的时候,则可以减小其识别实体的误差。具体说,在训练序列标注模型时,将实体类型标记(即主题词和情感词的标记)作为第一句输入,将标签分类标记作为第二句输入。两种标记同时训练,计算两者的损失之和作为整体损失,迭代更新模型参数,以达到整体损失最小的目的。由于没有将实体识别作为一个单独的任务,而是将标签分类模型的标签分类的识别结果作为输入,与命名实体识别任务同时训练,可以达到标签分类识别约束实体识别的效果,避免产生过多无意义的实体对,并建立起标签分类和实体对之间的对应关系。
如图4所示,是本发明实现数据观点抽取方法的电子设备一实施例的结构示意图。
所述电子设备1可以包括处理器10、存储器11和总线,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如数据观点抽取程序12。
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card, SMC)、安全数字(SecureDigital, SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如数据观点抽取程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如数据观点抽取程序等),以及调用存储在所述存储器11内的数据,以执行电子设备1的各种功能和处理数据。
所述总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
图3仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图3示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),可选的,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述电子设备1还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备之间建立通信连接。
可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的数据观点抽取程序12是多个指令的组合,在所述处理器10中运行时,可以实现:
S1,获取包含多条语句的文本数据,对所述文本数据进行分词,形成词向量;
S2,将所述词向量输入到标签分类模型中,所述标签分类模型包括依次连接的输入层、依次连接的多个中间层、输出层,且每个中间层包括多个self-attention模型,最后一层中间层输出的是与各词向量对应的包含了语义信息的向量,并通过输出层进行分类,获得文本数据的每条语句的至少一个标签分类;
S3,将所述标签分类以及所述文本数据对应的字向量输入到序列标注模型中,所述序列标注模型的结构与标签分类模型相同,通过所述序列标注模型识别出主题词和情感词,并将所述标签分类与主题词和情感词组成三元组。
具体的运行流程如图1所示的数据观点抽取方法流程类型,具体可参见图2的数据观点抽取方法的描述,此处不再赘述。
进一步地,所述电子设备1集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种数据观点抽取方法,其特征在于,包括:
S1,获取包含多条语句的文本数据,对所述文本数据进行分词,形成词向量;
S2,将所述词向量输入到标签分类模型中,所述标签分类模型包括依次连接的输入层、依次连接的多个中间层、输出层,且每个中间层包括多个self-attention模型,最后一层中间层输出的是与各词向量对应的包含了语义信息的向量,并通过输出层进行分类,得到每个分类的概率值,然后根据阈值获得文本数据的每条语句的至少一个标签分类;
S3,将所述标签分类以及所述文本数据对应的字向量输入到序列标注模型中,所述序列标注模型的结构与标签分类模型相同,通过所述序列标注模型识别出主题词和情感词,并将所述标签分类与主题词和情感词组成三元组,
其中,序列标注模型的输入还包括段向量、位置向量,由字向量、位置向量、段向量以及标签分类对应的标签向量相加作为序列标注模型的输入。
2.根据权利要求1所述的数据观点抽取方法,其特征在于,
每个中间层还包括残差连接,每个中间层的输出作为下一中间层的输入,所述残差连接用以将上一中间层的输出与该中间层的多个self-attention模型的输出的组合相加作为该中间层的输出。
3.根据权利要求1所述的数据观点抽取方法,其特征在于,
序列标注模型的输出采用实体标记符号来标记不同的字符,其中,B-SUB和I-SUB是主题词的开头和结尾标记,B-OBJ和I-OBJ是情感词的开头和结尾标记,通过查找B-SUB与 B-OBJ在语句中的索引,在所述文本数据中进行索引定位,获得主题词和情感词。
4.根据权利要求1所述的数据观点抽取方法,其特征在于,
所述将所述标签分类以及所述文本数据对应的字向量输入到序列标注模型中是指:
将所述标签分类插入到其所属的语句后面,与对应的语句共同作为输入向量输入到序列标注模型中。
5.根据权利要求1所述的数据观点抽取方法,其特征在于,
还利用同一语句的多个标签分类将语句切分为分属于不同标签分类的短句,并将切分后的短句分别输入到多个序列标注模型中。
6.根据权利要求5所述的数据观点抽取方法,其特征在于,
不同的序列标注模型分别采用不同的语料库训练,序列标注模型与标签分类模型的分类的数量一致,并利用该分类相对应的语料库来训练序列标注模型。
7.一种数据观点抽取装置,其特征在于,包括:
分词模块,用于获取包含多条语句的文本数据,对所述文本数据进行分词,形成词向量;
标签分类模块,用于将所述词向量输入到标签分类模型中,所述标签分类模型包括依次连接的输入层、依次连接的多个中间层、输出层,且每个中间层包括多个self-attention模型,最后一层中间层输出的是与各词向量对应的包含了语义信息的向量,并通过输出层进行分类,得到每个分类的概率值,然后根据阈值获得文本数据的每条语句的至少一个标签分类;
实体识别模块,用于将所述标签分类以及所述文本数据对应的字向量输入到序列标注模型中,所述序列标注模型的结构与标签分类模型相同,通过所述序列标注模型,其中,序列标注模型的输入还包括段向量、位置向量,由字向量、位置向量、段向量以及标签分类对应的标签向量相加作为序列标注模型的输入。
8.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至6中任一所述的数据观点抽取方法。
9.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任一所述的数据观点抽取方法。
CN202011242864.6A 2020-11-10 2020-11-10 一种数据观点抽取方法、装置、设备及存储介质 Active CN112100384B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011242864.6A CN112100384B (zh) 2020-11-10 2020-11-10 一种数据观点抽取方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011242864.6A CN112100384B (zh) 2020-11-10 2020-11-10 一种数据观点抽取方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112100384A CN112100384A (zh) 2020-12-18
CN112100384B true CN112100384B (zh) 2021-02-02

Family

ID=73785207

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011242864.6A Active CN112100384B (zh) 2020-11-10 2020-11-10 一种数据观点抽取方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112100384B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113220885B (zh) * 2021-05-21 2023-02-07 支付宝(杭州)信息技术有限公司 一种文本处理方法和系统
CN113569559B (zh) * 2021-07-23 2024-02-02 北京智慧星光信息技术有限公司 短文本实体情感分析方法、系统、电子设备及存储介质
CN113743097B (zh) * 2021-08-23 2024-03-01 桂林电子科技大学 基于跨度共享和语法依存关系增强的情感三元组抽取方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299457A (zh) * 2018-09-06 2019-02-01 北京奇艺世纪科技有限公司 一种观点挖掘方法、装置及设备
CN109902145A (zh) * 2019-01-18 2019-06-18 中国科学院信息工程研究所 一种基于注意力机制的实体关系联合抽取方法和系统
WO2019194343A1 (en) * 2018-04-02 2019-10-10 Phill It Co., Ltd. Mobile apparatus and method of classifying sentence into plurality of classes
CN111522908A (zh) * 2020-04-09 2020-08-11 国网上海市电力公司 一种基于BiGRU和注意力机制的多标签文本分类方法
CN111753058A (zh) * 2020-06-30 2020-10-09 北京信息科技大学 一种文本观点挖掘方法及系统
CN111767359A (zh) * 2020-06-30 2020-10-13 北京百度网讯科技有限公司 兴趣点分类方法、装置、设备以及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019194343A1 (en) * 2018-04-02 2019-10-10 Phill It Co., Ltd. Mobile apparatus and method of classifying sentence into plurality of classes
CN109299457A (zh) * 2018-09-06 2019-02-01 北京奇艺世纪科技有限公司 一种观点挖掘方法、装置及设备
CN109902145A (zh) * 2019-01-18 2019-06-18 中国科学院信息工程研究所 一种基于注意力机制的实体关系联合抽取方法和系统
CN111522908A (zh) * 2020-04-09 2020-08-11 国网上海市电力公司 一种基于BiGRU和注意力机制的多标签文本分类方法
CN111753058A (zh) * 2020-06-30 2020-10-09 北京信息科技大学 一种文本观点挖掘方法及系统
CN111767359A (zh) * 2020-06-30 2020-10-13 北京百度网讯科技有限公司 兴趣点分类方法、装置、设备以及存储介质

Also Published As

Publication number Publication date
CN112100384A (zh) 2020-12-18

Similar Documents

Publication Publication Date Title
WO2021212682A1 (zh) 知识抽取方法、装置、电子设备及存储介质
CN110909548B (zh) 中文命名实体识别方法、装置及计算机可读存储介质
CN112100384B (zh) 一种数据观点抽取方法、装置、设备及存储介质
CN111680168B (zh) 文本特征语义提取方法、装置、电子设备及存储介质
CN110851596A (zh) 文本分类方法、装置及计算机可读存储介质
CN112597312A (zh) 文本分类方法、装置、电子设备及可读存储介质
CN108959566B (zh) 一种基于Stacking集成学习的医疗文本去隐私方法和系统
WO2021208696A1 (zh) 用户意图分析方法、装置、电子设备及计算机存储介质
CN112380343B (zh) 问题解析方法、装置、电子设备及存储介质
CN113157927B (zh) 文本分类方法、装置、电子设备及可读存储介质
CN113268615A (zh) 资源标签生成方法、装置、电子设备及存储介质
CN115438674B (zh) 实体数据处理、实体链接方法、装置和计算机设备
CN110909549A (zh) 对古汉语进行断句的方法、装置以及存储介质
CN113051356A (zh) 开放关系抽取方法、装置、电子设备及存储介质
CN113360654B (zh) 文本分类方法、装置、电子设备及可读存储介质
CN113704429A (zh) 基于半监督学习的意图识别方法、装置、设备及介质
CN112800184B (zh) 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法
CN113722483A (zh) 话题分类方法、装置、设备及存储介质
CN115392237B (zh) 情感分析模型训练方法、装置、设备及存储介质
CN116450829A (zh) 医疗文本分类方法、装置、设备及介质
CN115238115A (zh) 基于中文数据的图像检索方法、装置、设备及存储介质
CN115309864A (zh) 评论文本的情感智能分类方法、装置、电子设备及介质
CN113344125B (zh) 长文本匹配识别方法、装置、电子设备及存储介质
CN113254814A (zh) 网络课程视频打标签方法、装置、电子设备及介质
CN117290515A (zh) 文本标注模型的训练方法、文生图方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant