CN114218381A - 立场识别方法、装置、设备及介质 - Google Patents
立场识别方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN114218381A CN114218381A CN202111493451.XA CN202111493451A CN114218381A CN 114218381 A CN114218381 A CN 114218381A CN 202111493451 A CN202111493451 A CN 202111493451A CN 114218381 A CN114218381 A CN 114218381A
- Authority
- CN
- China
- Prior art keywords
- vector
- target text
- topic
- text
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 239000013598 vector Substances 0.000 claims abstract description 210
- 238000012545 processing Methods 0.000 claims abstract description 40
- 239000013604 expression vector Substances 0.000 claims abstract description 20
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 description 28
- 230000006870 function Effects 0.000 description 10
- 238000012360 testing method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000003672 processing method Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 208000025721 COVID-19 Diseases 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Computing Systems (AREA)
- Economics (AREA)
- Probability & Statistics with Applications (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开涉及一种立场识别方法、装置、设备及介质。其中,立场识别方法包括:获取待识别的目标文本;对目标文本进行语义识别处理,得到目标文本的整体语义向量;基于预先定义的话题分类模板,对目标文本进行话题识别处理,得到目标文本的话题表示向量;基于整体语义向量和话题表示向量,对目标文本进行立场分类,得到目标文本对应的目标立场类别。根据本公开实施例,能够准确地识别出目标文本所涉及的话题表示向量,从而可以结合文本语义与文本话题对目标文本进行更准确的立场识别。
Description
技术领域
本公开涉及文本处理技术领域,尤其涉及一种立场识别方法、装置、设备及介质。
背景技术
在社交媒体领域,立场识别得到了广泛的关注。利用立场识别的技术,可以将社交媒体文本中表达的对特定话题的态度分类为“支持”、“反对”、“中立”三类。
但是,社交媒体文本中不一定会显式地出现话题关键词,导致在对社交媒体文本时无法准确地识别其所涉及的话题,进而无法准确地对社交媒体文本进行立场识别。
发明内容
为了解决上述技术问题,本公开提供了一种立场识别方法、装置、设备及介质。
第一方面,本公开提供了一种立场识别方法,包括:
获取待识别的目标文本;
对目标文本进行语义识别处理,得到目标文本的整体语义向量;
基于预先定义的话题分类模板,对目标文本进行话题识别处理,得到目标文本的话题表示向量;
基于整体语义向量和话题表示向量,对目标文本进行立场分类,得到目标文本对应的目标立场类别。
第二方面,本公开提供了一种立场识别装置,包括:
文本获取模块,用于获取待识别的目标文本;
语义识别模块,用于对目标文本进行语义识别处理,得到目标文本的整体语义向量;
话题识别模块,用于基于预先定义的话题分类模板,对目标文本进行话题识别处理,得到目标文本的话题表示向量;
立场分类模块,用于基于整体语义向量和话题表示向量,对目标文本进行立场分类,得到目标文本对应的目标立场类别。
第三方面,本公开提供了一种立场识别设备,包括:
处理器;
存储器,用于存储可执行指令;
其中,处理器用于从存储器中读取可执行指令,并执行可执行指令以实现第一方面的立场识别方法。
第四方面,本公开提供了一种计算机可读存储介质,该存储介质存储有计算机程序,当计算机程序被处理器执行时,使得处理器实现第一方面的立场识别方法。
本公开实施例提供的技术方案与现有技术相比具有如下优点:
本公开实施例的立场识别方法、装置、设备及介质,能够在获取到待识别的目标文本之后,识别目标文本的整体语义向量和话题表示向量,进而基于整体语义向量和话题表示向量,对目标文本进行立场分类,得到目标文本对应的目标立场类别,其中,目标文本的话题表示向量是基于预先定义的话题分类模板对目标文本进行话题识别处理得到的,即使目标文本中未显式地出现话题关键词,也可以通过话题分类模板准确的提取出目标文本中的隐式话题信息,进而可以准确地识别出目标文本所涉及的话题表示向量,从而可以结合文本语义与文本话题对目标文本进行更准确的立场识别。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。
图1为本公开实施例提供的一种立场识别方法的流程示意图;
图2为本公开实施例提供的一种语义识别处理方法的流程示意图;
图3为本公开实施例提供的一种话题识别处理方法的流程示意图;
图4为本公开实施例提供的一种立场识别模型的原理示意图;
图5为本公开实施例提供的一种立场识别装置的结构示意图;
图6为本公开实施例提供的一种立场识别设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
申请人发现,目前在对社交媒体文本进行立场识别的过程中,存在以下难点:
1、社交媒体文本中不一定会显式地出现话题关键词,导致在对社交媒体文本时无法准确地识别其所涉及的话题;
2、由于网络语言的特点,许多社交媒体文本并不满足用于训练或测试的条件,并且对于社交媒体文本的标注也要耗费大量的精力和时间,导致难以在社交媒体上收集高质量的训练数据和测试数据。
由于存在以上难点,导致已有的立场识别技术无法准确地对社交媒体文本进行立场识别。
为了解决上述问题,本公开实施例提供了一种立场识别方法、装置、设备及介质。下面首先结合图1至图3对本公开实施例提供的立场识别方法进行详细说明。
图1示出了本公开实施例提供的一种立场识别方法的流程示意图。
在本公开实施例中,该立场识别方法可以由计算设备执行。其中,计算设备可以包括电子设备或服务器。电子设备可以包括但不限于诸如笔记本电脑等等的移动终端以及诸如台式计算机等等的固定终端。服务器可以是云服务器或者服务器集群等具有存储及计算功能的设备。
如图1所示,该立场识别方法可以包括如下步骤。
S110、获取待识别的目标文本。
在本公开实施例中,计算设备可以获取待识别的目标文本。
其中,目标文本可以为从互联网获取的文本、用户上传的文本或者其他设备传输的文本,在此不做限定。
具体地,待识别的目标文本可以是任意文本,例如公众意见、文章、网络信息、社交媒体文本等,此处不做限定。
S120、对目标文本进行语义识别处理,得到目标文本的整体语义向量。
在本公开实施例中,计算设备可以对获取到的待识别的目标文本进行语义识别处理,得到目标文本的整体语义向量。
其中,整体语义向量可以为表示整个目标文本的与立场相关的语义的向量,整体语义向量用于进行立场分类。
在本公开实施例中,可以利用任意预先训练得到的用于提取文本的整体语义特征的语言表征模型对目标文本进行语义识别处理,在此不作限制。
可选地,计算设备可以利用预先训练得到的用于提取文本的整体语义特征的第一基于转换器的双向编码表征(Bidirectional Encoder Representation fromTransformers,BERT)模型对目标文本进行语义识别处理,得到目标文本的整体语义向量。
下面以图2为例,对利用第一BERT模型对目标文本进行语义识别处理的方法进行详细说明。
图2示出了本公开实施例提供的一种语义识别处理方法的流程示意图。
如图2所示,该语义识别处理方法可以包括如下步骤。
S121、为目标文本添加起始标识符,得到待编码文本。
在本公开实施例中,计算设备可以在获取到待识别的目标文本之后,为目标文本添加起始标识符,得到待编码文本。
具体地,起始标识符可以为[CLS]符号,计算设备可以在目标文本的文本首位插入该[CLS]符号,用于表示目标文本的文本语句开头。
S122、对待编码文本进行语义特征编码,得到具有上下文信息的第一编码向量。
在本公开实施例中,计算设备可以对获取到的待编码文本进行语义特征编码,得到具有上下文信息的第一编码向量。
可选地,计算设备可以通过第一BERT模型对待编码文本进行语义特征编码,即将待编码文本输入第一BERT模型,得到第一BERT模型输出的具有上下文信息的第一编码向量。
具体地,将待编码文本输入到第一BERT模型中,便可得到将待编码文本中每一个文字结合上下文信息编码的字向量,即待编码文本中每一个文字对应的具有语义特征的字向量,进而由待编码文本中全部文字的字向量形成第一编码向量,即第一编码向量包括第一BERT模型输出的待编码文本中全部文字的字向量。
进一步地,第一编码向量中包括第一BERT模型输出的待编码文本中全部文字的字向量,即包括起始标识符对应的字向量。
S123、基于第一编码向量,确定目标文本的整体语义向量。
在本公开实施例中,计算设备可以在得到第一编码向量之后,根据第一编码向量,确定目标文本的整体语义向量。
在一些实施例中,S123可以具体包括:从第一编码向量中提取起始标识符对应的标识符向量;将标识符向量作为整体语义向量。
可选地,在计算设备得到第一编码向量之后,即得到待编码文本中全部文字的字向量之后,可以提取出起始标识符对应的字向量,该起始标识符对应的字向量即为起始标识符对应的标识符向量,然后,计算设备可以将该标识符向量作为整体语义向量。
在本公开实施例中,第一BERT模型采用了预训练联合微调的架构,能够更深刻的解读语句内涵,其在微调整阶段表现出快捷、有效等特征,且模型的泛化性进一步增强,因此模型可以准确地确定目标文本的第一编码向量。同时,由于起始标识符为无明显语义信息的符号,因此,与目标文本中其他文字相比,起始标识符可以更“公平”地融合文本中各个文字的语义信息,进而更好的表示目标文本的整体语义。综上,本公开实施例可以通过BERT模型与起始标识符的结合,准确地识别整体语义向量。
需要说明的是,计算设备还可以在目标文本的文本末位添加终止标识符,终止标识符可以为[SEP]符号,然后计算设备可以利用第一BERT模型得到终止标识符对应的字向量,进而基于终止标识符对应的字向量,确定目标文本的整体语义向量。其中,利用终止标识符对应的字向量确定目标文本的整体语义向量的方法与利用起始标识符对应的字向量确定目标文本的整体语义向量的方法相似,在此不做赘述。
S130、基于预先定义的话题分类模板,对目标文本进行话题识别处理,得到目标文本的话题表示向量。
在本公开实施例中,计算设备可以根据预先定义的话题分类模板,对获取到的待识别的目标文本进行话题识别处理,得到目标文本的话题表示向量。
可选地,话题分类模板可以为任意预先定义的用于提取文本中的话题信息的模板文本,此处不做限制。
进一步地,计算设备可以将目标文本与话题分类模板进行融合,得到待分类文本,然后利用待分类文本,对目标文本进行话题识别处理,得到目标文本的话题表示向量。
在本公开实施例中,可以利用任意预先训练得到的用于提取文本的话题特征的语言表征模型对待分类文本进行话题识别处理,在此不做限制。
可选地,计算设备可以通过预先训练得到的用于提取文本的话题特征的第二BERT模型对待分类文本进行话题识别处理,得到目标文本的话题表示向量。
具体地,计算设备可以将待分类文本输入到第二BERT模型中,得到将待分类文本中每一个文字结合上下文信息编码的字向量,即待分类文本中每一个文字对应的具有话题特征的字向量,进而由待分类文本中全部文字的字向量形成第二编码向量,即第二编码向量包括第二BERT模型输出的待分类文本中全部文字的字向量。接着,计算设备可以基于话题分类模板所涉及的字向量,确定目标文本的话题表示向量。
需要说明的是,上述第一BERT模型和第二BERT模型是基于不同模型参数预先训练好的具有不同编码功能的模型。
S140、基于整体语义向量和话题表示向量,对目标文本进行立场分类,得到目标文本对应的目标立场类别。
在本公开实施例中,计算设备在得到整体语义向量和话题表示向量之后,可以通过整体语义向量和话题表示向量,对目标文本进行立场分类,得到目标文本对应的目标立场类别。
在一些实施例中,S140可以具体包括:将整体语义向量和话题表示向量相加,得到待分类向量;基于待分类向量,对目标文本进行立场分类,得到目标文本对应的目标立场类别。
具体地,整体语义向量和话题表示向量的向量维度相同,计算设备可以将整体语义向量中的每个维度的分量分别与话题表示向量中的相同维度的分量相加,得到待分类向量,进而再基于待分类向量,对目标文本进行立场分类,得到目标文本对应的目标立场类别。
可选地,基于待分类向量,对目标文本进行立场分类,得到目标文本对应的目标立场类别可以具体包括:对待分类向量进行归一化指数计算,得到目标文本属于各个预设立场类别的概率值;将最大概率值所属的预设立场类别作为目标文本对应的目标立场类别。
具体地,计算设备计算出待分类向量之后,可以将待分类向量中的每个分量依次输入预先训练得到的归一化指数(softmax)函数中,由softmax函数基于各个分量计算目标文本属于的各个预设立场类别的概率值,然后,将最大概率值所属的预设立场类别作为目标文本对应的目标立场类别,得到对目标文本的立场类别的识别结果。
其中,预设立场类别可以包括分别表征“支持”、“反对”、“其他”三类立场的立场类别。
在本公开实施例中,能够在获取到待识别的目标文本之后,识别目标文本的整体语义向量和话题表示向量,进而基于整体语义向量和话题表示向量,对目标文本进行立场分类,得到目标文本对应的目标立场类别,其中,目标文本的话题表示向量是基于预先定义的话题分类模板对目标文本进行话题识别处理得到的,即使目标文本中未显式地出现话题关键词,也可以通过话题分类模板准确的提取出目标文本中的隐式话题信息,进而可以准确地识别出目标文本所涉及的话题表示向量,从而可以结合文本语义与文本话题对目标文本进行更准确的立场识别。
在本公开另一些实施例中,计算设备在获取到待识别的目标文本之后、在对目标文本进行语义识别处理以及话题识别处理之前,还需要对获取到的待识别的目标文本进行预处理,得到预处理后的目标文本。
可选地,预处理可以包括去除目标文本中的特殊符号和统一资源定位器(UniformResource Locator,URL)。
由此,在本公开实施例中,计算设备可以对预处理后的目标文本进行语义识别处理以及话题识别处理,以避免特殊符号和URL带来干扰,进一步提高立场分类结果的准确性。
在本公开又一些实施例中,话题分类模板可以包括:输入变量和输出变量。
其中,输入变量可以用于表征待提取话题信息的文本,输出变量可以表征该文本对应的话题信息。
进一步地,计算设备将目标文本与话题分类模板进行融合的方法可以为将话题分类模板的输入变量替换为目标文本。下面以图3为例,对利用第二BERT模型和话题分类模板对目标文本进行话题识别处理的方法进行详细说明。
图3示出了本公开实施例提供的一种话题识别处理方法的流程示意图。
如图3所示,该话题识别处理方法可以包括如下步骤。
S131、将话题分类模板的输入变量替换为目标文本,得到待分类文本。
在本公开实施例中,计算设备可以在获取到待识别的目标文本之后,读取预先定义的话题分类模板,然后,将话题分类模板的输入变量替换为目标文本,得到待分类文本。
可选地,话题分类模板可以包括预先定义的提示(prompt)模板文本。
具体地,prompt模板文本可以为“[CLS][TEXT]The topic is about[MASK][SEP]”,该prompt模板文本可以用于用于提取文本中的话题信息。其中,[TEXT]符号为输入变量,[MASK]为输出变量,[CLS]符号为起始标识符,[SEP]符号为终止标识符。
例如目标文本为“Respect!Truck drivers drive dozens of hours totransport COVID-19vaccines in China.”,则待分类文本可以为“[CLS]Respect!Truckdrivers drive dozens of hours to transport COVID-19 vaccines in China.Thetopic is about[MASK][SEP]”。
S132、对待分类文本进行话题特征编码,得到具有上下文信息的第二编码向量。
在本公开实施例中,计算设备可以对获取到的待分类文本进行话题特征编码,得到具有上下文信息的第二编码向量。
可选地,计算设备可以通过第二BERT模型对待分类文本进行话题特征编码,即将待分类文本输入第二BERT模型,得到第二BERT模型输出的具有上下文信息的第二编码向量。
具体地,将待分类文本输入到第二BERT模型中,便可得到将待分类文本中每一个文字结合上下文信息编码的字向量,即待分类文本中每一个文字对应的具有话题特征的字向量,进而由待分类文本中全部文字的字向量形成第二编码向量,即第二编码向量包括第二BERT模型输出的待分类文本中全部文字的字向量。
进一步地,第二编码向量中包括第二BERT模型输出的待分类文本中全部文字的字向量,即包括话题分类模板中除输入变量以外的每个文字对应的字向量。
S133、基于第二编码向量,确定目标文本的话题表示向量。
在本公开实施例中,计算设备可以在得到第二编码向量之后,基于第二编码向量,确定目标文本的话题表示向量。
在一些实施例中,S133可以具体包括:从第二编码向量中提取输出变量对应的变量向量;将变量向量作为话题表示向量。
可选地,在计算设备得到第二编码向量之后,即得到待分类文本中全部文字的字向量之后,可以提取出话题分类目标中输出变量对应的字向量,该输出变量对应的字向量即为输出变量对应的变量向量,然后,计算设备可以将该变量向量作为话题表示向量。
具体地,第一编码向量中包括第一BERT模型输出的待编码文本中全部文字的字向量,即包括起始标识符对应的字向量。
例如,将待分类文本“[CLS]Respect!Truck drivers drive dozens of hours totransport COVID-19 vaccines in China.The topic is about[MASK][SEP]”通过第二BERT模型进行话题特征编码后,会推断出输出变量“[MASK]”的语义信息,该语义信息为输出变量“[MASK]”对应的字向量,计算设备可以从第二编码向量中提取输出变量“[MASK]”对应的字向量,得到话题表示向量。
由此,在本公开实施例中,能够通过话题分类模板与BERT模型结合,即使在目标文本中没有出现显式的话题关键字的情况下,也能够准确地提取目标文本的话题表示向量,进而进一步提高立场识别的准确性。
在本公开另一种实施方式中,本公开的立场识别方法可以由预先训练好的立场识别模型实现,该立场识别模型的各个部分可以实现立场识别方法的各个步骤。
图4示出了本公开实施例提供的一种立场识别模型的原理示意图。
如图4所示,该立场识别模型主要包括3个子模型,具体为第一BERT模型、第二BERT模型和softmax函数模型。
其中,第一BERT模型主要用于实现提取文本中的整体语义向量,具体地,可以生成包含有目标文本的待编码文本对应的第一编码向量、以及从第一编码向量中提取起始标识符对应的标识符向量即整体语义向量。第二BERT模型主要用于实现提取文本中的话题表示向量,具体地,可以生成包含有目标文本的待分类文本对应的第二编码向量、以及从第二编码向量中提取输出变量对应的变量向量即话题表示向量。softmax函数模型用于实现将第一BERT模型和第二BERT模型输出的向量相加得到待分类向量以及基于待分类向量确定文本的立场类别,具体地,可以计算整体语义向量与话题表示向量相加后的待分类向量、计算目标文本属于各个预设立场类别的概率值、以及将最大概率值所属的预设立场类别作为目标文本对应的目标立场类别。
具体地,计算设备可以将目标文本输入到第二BERT模型中,模型会根据上下文语义去推断[MASK]符号位置的语义信息,该语义信息输出为一个768维的向量,即为话题向量表示A。计算设备可以将目标文本输入第一BERT模型中获取其[CLS]位置对应的768维的向量,即为整体语义向量B,然后将话题向量表示A和整体语义向量B进行相加获得用于立场分类的待分类向量C,待分类向量C仍然为768维的向量,最后通过softmax函数对该待分类向量C进行立场分类。
在本公开实施例中,在对立场识别模型进行训练的过程中,第二BERT模型通过提示-训练(prompt-tuning)方式对训练样本进行训练得到,即prompt-tuning就是用prompt模板将话题提取任务制定为一个掩码语言模型(masked language modeling,MLM)问题,并将每个话题的预期输出设置为标签词。根据第二BERT模型作出的MLM预测和预设的标签词进行匹配,将与其预测输出最相近的标签词作为文本对应的话题类别。
具体地,在提示-训练(prompt-tuning)方式中,下游任务被重新调整成类似预训练任务的形式。其中,预先定义的prompt模板,可以在多种模板文本中选择得到。例如训练样本中的文本样本为“Respect!Truck drivers drive dozens of hours to transportCOVID-19 vaccines in China.”,则该样本文本与话题分类模板融合后为“[CLS]Respect!Truck drivers drive dozens of hours to transport COVID-19 vaccines inChina.The topic is about[MASK][SEP]”,然后用表示话题的答案对其中的输出变量进行填空如"COVID-19",最后再将该答案转化成话题类别的标签。通过这种方式可以对每种模板文本分别进行测试,进而通过比较准确率,选取准确率最高的prompt模板,达到控制第二BERT模型预测输出的目的。
下面,对上述立场识别模型的模型训练方法进行说明。
一、预处理阶段
首先,获取多个文本样本,并去除文本样本中的特殊符号和URL。
然后,对每个文本样本进行标注,得到每个文本样本的标签,进而得到多个训练样本,每个训练样本包括一个文本样本和该文本样本的标签。
以文本样本“Respect!Truck drivers drive dozens of hours to transportCOVID-19 vaccines in China.”为例,则可以为文本样本标注如下的话题标签和立场标签。
其中,可以看出该文本样本“Respect!Truck drivers drive dozens of hoursto transport COVID-19 vaccines in China.”对应的话题标签为“CONVID-19”,并且对应的立场标签为“favor”。
二、模型训练
将多个训练样本按照8:1:1的比例划分为训练集、验证集以及测试集,基于训练集训练立场识别模型,在验证集上验证立场类别识别模型的准确性。
输入:训练集T={(x1,y1,z1),(x2,y2,z2),...,(xN,yN,zN)},其中xN表示输入的文本样本,yN={″A″,″B″,″COVID-19″}表示文本样本对应的话题类别,A和召分别指示不同的文本发布方,zN={″favor″,″against″,″other″}表示对该话题的立场类别,N=1,2,...K表示共有K条文本,T为训练立场识别模型时的输入数据,即文本样本xk和需要预测的标签yk和zk。
输出:保存的立场识别模型以及立场识别模型在验证集上的准确性。
三、模型测试
将训练好的立场识别模型应用到测试集上,计算在测试集上的F1得分,来测试立场识别模型的泛化能力。
综上所述,本公开实施例提供的立场分类方法,不但解决了已有立场识别算法在小数据量问题上表现不佳的问题,还能解决已有立场识别算法对于隐式话题信息的挖掘能力不足的问题,进而可以在少数据量场景下,综合考虑目标文本的话题特征和立场特征,通过少量的训练样本训练出一个通用、高质量的立场识别模型,来提高对目标文本的立场识别的准确性。
图5示出了本公开实施例提供的一种立场识别装置的结构示意图。
在本公开实施例中,该立场识别装置可以设置于计算设备中。其中,计算设备可以包括电子设备或服务器。电子设备可以包括但不限于诸如笔记本电脑等等的移动终端以及诸如台式计算机等等的固定终端。服务器可以是云服务器或者服务器集群等具有存储及计算功能的设备。
如图5所示,该立场识别装置500可以包括文本获取模块510、语义识别模块520、话题识别模块530和立场分类模块540。
该文本获取模块510可以用于获取待识别的目标文本。
该语义识别模块520可以用于对目标文本进行语义识别处理,得到目标文本的整体语义向量。
该话题识别模块530可以用于基于预先定义的话题分类模板,对目标文本进行话题识别处理,得到目标文本的话题表示向量。
该立场分类模块540可以用于基于整体语义向量和话题表示向量,对目标文本进行立场分类,得到目标文本对应的目标立场类别。
在本公开实施例中,能够在获取到待识别的目标文本之后,识别目标文本的整体语义向量和话题表示向量,进而基于整体语义向量和话题表示向量,对目标文本进行立场分类,得到目标文本对应的目标立场类别,其中,目标文本的话题表示向量是基于预先定义的话题分类模板对目标文本进行话题识别处理得到的,即使目标文本中未显式地出现话题关键词,也可以通过话题分类模板准确的提取出目标文本中的隐式话题信息,进而可以准确地识别出目标文本所涉及的话题表示向量,从而可以结合文本语义与文本话题对目标文本进行更准确的立场识别。
在本公开一些实施例中,该语义识别模块520可以包括标识添加单元、语义编码单元和第一确定单元。
该标识添加单元可以用于为目标文本添加起始标识符,得到待编码文本。
该语义编码单元可以用于对待编码文本进行语义特征编码,得到具有上下文信息的第一编码向量。
该第一确定单元可以用于基于第一编码向量,确定目标文本的整体语义向量。
在本公开一些实施例中,该第一确定单元可以包括第一提取子单元和第一处理子单元。
该第一提取子单元可以用于从第一编码向量中提取起始标识符对应的标识符向量。
该第一处理子单元可以用于将标识符向量作为整体语义向量。
在本公开一些实施例中,话题分类模板可以包括输入变量。
相应地,该话题识别模块530可以包括变量替换单元、话题编码单元和第二确定单元。
该变量替换单元可以用于将话题分类模板的输入变量替换为目标文本,得到待分类文本。
该话题编码单元可以用于对待分类文本进行话题特征编码,得到具有上下文信息的第二编码向量。
该第二确定单元可以用于基于第二编码向量,确定目标文本的话题表示向量。
在本公开一些实施例中,话题分类模板还可以包括输出变量。
相应地,该第二确定单元可以包括第二提取子单元和第二处理子单元。
该第二提取子单元可以用于从第二编码向量中提取输出变量对应的变量向量。
该第二处理子单元可以用于将变量向量作为话题表示向量。
在本公开一些实施例中,立场分类模块540可以包括向量计算单元和立场分类单元。
该向量计算单元可以用于将整体语义向量和话题表示向量相加,得到待分类向量。
该立场分类单元可以用于基于待分类向量,对目标文本进行立场分类,得到目标文本对应的目标立场类别。
在本公开一些实施例中,该立场分类单元可以包括概率计算子单元和第三处理子单元。
该概率计算子单元可以用于对待分类向量进行归一化指数计算,得到目标文本属于各个预设立场类别的概率值。
该第三处理子单元可以用于将最大概率值所属的预设立场类别作为目标文本对应的目标立场类别。
需要说明的是,图5所示的立场识别装置500可以执行图1和图3所示的方法实施例中的各个步骤,并且实现图1和图3所示的方法实施例中的各个过程和效果,在此不做赘述。
图6示出了本公开实施例提供的一种立场识别设备的结构示意图。
在本公开一些实施例中,图6所示的立场识别设备可以为计算设备。其中,计算设备可以包括电子设备或服务器。电子设备可以包括但不限于诸如笔记本电脑等等的移动终端以及诸如台式计算机等等的固定终端。服务器可以是云服务器或者服务器集群等具有存储及计算功能的设备。
如图6所示,该立场识别设备可以包括处理器601以及存储有计算机程序指令的存储器602。
具体地,上述处理器601可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
存储器602可以包括用于信息或指令的大容量存储器。举例来说而非限制,存储器602可以包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个及其以上这些的组合。在合适的情况下,存储器602可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器602可在综合网关设备的内部或外部。在特定实施例中,存储器602是非易失性固态存储器。在特定实施例中,存储器602包括只读存储器(Read-Only Memory,ROM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(Programmable ROM,PROM)、可擦除PROM(Electrical Programmable ROM,EPROM)、电可擦除PROM(Electrically ErasableProgrammable ROM,EEPROM)、电可改写ROM(Electrically Alterable ROM,EAROM)或闪存,或者两个或及其以上这些的组合。
处理器601通过读取并执行存储器602中存储的计算机程序指令,以执行本公开实施例所提供的立场识别方法的步骤。
在一个示例中,该立场识别设备还可包括收发器603和总线604。其中,如图6所示,处理器601、存储器602和收发器603通过总线604连接并完成相互间的通信。
总线604包括硬件、软件或两者。举例来说而非限制,总线可包括加速图形端口(Accelerated Graphics Port,AGP)或其他图形总线、增强工业标准架构(ExtendedIndustry Standard Architecture,EISA)总线、前端总线(Front Side BUS,FSB)、超传输(Hyper Transport,HT)互连、工业标准架构(Industrial Standard Architecture,ISA)总线、无限带宽互连、低引脚数(Low Pin Count,LPC)总线、存储器总线、微信道架构(MicroChannel Architecture,MCA)总线、外围控件互连(Peripheral Component Interconnect,PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial Advanced TechnologyAttachment,SATA)总线、视频电子标准协会局部(Video Electronics StandardsAssociation Local Bus,VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线604可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
本公开实施例还提供了一种计算机可读存储介质,该存储介质可以存储有计算机程序,当计算机程序被处理器执行时,使得处理器实现本公开实施例所提供的立场识别方法。
上述的存储介质可以例如包括计算机程序指令的存储器602,上述指令可由立场识别设备的处理器601执行以完成本公开实施例所提供的立场识别方法。可选地,存储介质可以是非临时性计算机可读存储介质,例如,非临时性计算机可读存储介质可以是ROM、随机存取存储器(Random Access Memory,RAM)、光盘只读存储器(Compact DiscROM,CD-ROM)、磁带、软盘和光数据存储设备等。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种立场识别方法,其特征在于,包括:
获取待识别的目标文本;
对所述目标文本进行语义识别处理,得到所述目标文本的整体语义向量;
基于预先定义的话题分类模板,对所述目标文本进行话题识别处理,得到所述目标文本的话题表示向量;
基于所述整体语义向量和所述话题表示向量,对所述目标文本进行立场分类,得到所述目标文本对应的目标立场类别。
2.根据权利要求1所述的方法,其特征在于,所述对所述目标文本进行语义识别处理,得到所述目标文本的整体语义向量,包括:
为所述目标文本添加起始标识符,得到待编码文本;
对所述待编码文本进行语义特征编码,得到具有上下文信息的第一编码向量;
基于所述第一编码向量,确定所述目标文本的整体语义向量。
3.根据权利要求2所述的方法,其特征在于,所述基于所述第一编码向量,确定所述目标文本的整体语义向量,包括:
从所述第一编码向量中提取所述起始标识符对应的标识符向量;
将所述标识符向量作为所述整体语义向量。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述话题分类模板包括输入变量;
其中,所述基于预先定义的话题分类模板,对所述目标文本进行话题识别处理,得到所述目标文本的话题表示向量,包括:
将所述话题分类模板的输入变量替换为所述目标文本,得到待分类文本;
对所述待分类文本进行话题特征编码,得到具有上下文信息的第二编码向量;
基于所述第二编码向量,确定所述目标文本的话题表示向量。
5.根据权利要求4所述的方法,其特征在于,所述话题分类模板还包括输出变量;
其中,所述基于所述第二编码向量,确定所述目标文本的话题表示向量,包括:
从所述第二编码向量中提取所述输出变量对应的变量向量;
将所述变量向量作为所述话题表示向量。
6.根据权利要求1所述的方法,其特征在于,所述基于所述整体语义向量和所述话题表示向量,对所述目标文本进行立场分类,得到所述目标文本对应的目标立场类别,包括:
将所述整体语义向量和所述话题表示向量相加,得到待分类向量;
基于所述待分类向量,对所述目标文本进行立场分类,得到所述目标文本对应的目标立场类别。
7.根据权利要求6所述的方法,其特征在于,所述基于所述待分类向量,对所述目标文本进行立场分类,得到所述目标文本对应的目标立场类别,包括:
对所述待分类向量进行归一化指数计算,得到所述目标文本属于各个预设立场类别的概率值;
将最大概率值所属的预设立场类别作为所述目标文本对应的目标立场类别。
8.一种立场识别装置,其特征在于,包括:
文本获取模块,用于获取待识别的目标文本;
语义识别模块,用于对所述目标文本进行语义识别处理,得到所述目标文本的整体语义向量;
话题识别模块,用于基于预先定义的话题分类模板,对所述目标文本进行话题识别处理,得到所述目标文本的话题表示向量;
立场分类模块,用于基于所述整体语义向量和所述话题表示向量,对所述目标文本进行立场分类,得到所述目标文本对应的目标立场类别。
9.一种立场识别设备,其特征在于,包括:
处理器;
存储器,用于存储可执行指令;
其中,所述处理器用于从所述存储器中读取所述可执行指令,并执行所述可执行指令以实现上述权利要求1-7中任一项所述的立场识别方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,当所述计算机程序被处理器执行时,使得处理器实现用上述权利要求1-7中任一项所述的立场识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111493451.XA CN114218381B (zh) | 2021-12-08 | 2021-12-08 | 立场识别方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111493451.XA CN114218381B (zh) | 2021-12-08 | 2021-12-08 | 立场识别方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114218381A true CN114218381A (zh) | 2022-03-22 |
CN114218381B CN114218381B (zh) | 2022-08-30 |
Family
ID=80700293
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111493451.XA Active CN114218381B (zh) | 2021-12-08 | 2021-12-08 | 立场识别方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114218381B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130018824A1 (en) * | 2011-07-11 | 2013-01-17 | Accenture Global Services Limited | Sentiment classifiers based on feature extraction |
CN103116644A (zh) * | 2013-02-26 | 2013-05-22 | 华南理工大学 | Web主题倾向性挖掘与决策支持的方法 |
CN108255805A (zh) * | 2017-12-13 | 2018-07-06 | 讯飞智元信息科技有限公司 | 舆情分析方法及装置、存储介质、电子设备 |
CN110119786A (zh) * | 2019-05-20 | 2019-08-13 | 北京奇艺世纪科技有限公司 | 文本话题分类方法及装置 |
CN110222178A (zh) * | 2019-05-24 | 2019-09-10 | 新华三大数据技术有限公司 | 文本情感分类方法、装置、电子设备及可读存储介质 |
CN110909144A (zh) * | 2019-11-28 | 2020-03-24 | 中信银行股份有限公司 | 问答对话方法、装置、电子设备及计算机可读存储介质 |
CN111428514A (zh) * | 2020-06-12 | 2020-07-17 | 北京百度网讯科技有限公司 | 语义匹配方法、装置、设备以及存储介质 |
CN111931513A (zh) * | 2020-07-08 | 2020-11-13 | 泰康保险集团股份有限公司 | 一种文本的意图识别方法及装置 |
US20200380301A1 (en) * | 2019-06-01 | 2020-12-03 | Apple Inc. | Techniques for machine language model creation |
CN112685541A (zh) * | 2021-03-11 | 2021-04-20 | 中南大学 | 一种基于多任务学习的社交媒体谣言检测方法 |
CN112732920A (zh) * | 2021-01-15 | 2021-04-30 | 北京明略昭辉科技有限公司 | 基于bert的多特征融合实体情感分析方法及系统 |
CN112966106A (zh) * | 2021-03-05 | 2021-06-15 | 平安科技(深圳)有限公司 | 文本的情绪识别方法、装置、设备及存储介质 |
-
2021
- 2021-12-08 CN CN202111493451.XA patent/CN114218381B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130018824A1 (en) * | 2011-07-11 | 2013-01-17 | Accenture Global Services Limited | Sentiment classifiers based on feature extraction |
CN103116644A (zh) * | 2013-02-26 | 2013-05-22 | 华南理工大学 | Web主题倾向性挖掘与决策支持的方法 |
CN108255805A (zh) * | 2017-12-13 | 2018-07-06 | 讯飞智元信息科技有限公司 | 舆情分析方法及装置、存储介质、电子设备 |
CN110119786A (zh) * | 2019-05-20 | 2019-08-13 | 北京奇艺世纪科技有限公司 | 文本话题分类方法及装置 |
CN110222178A (zh) * | 2019-05-24 | 2019-09-10 | 新华三大数据技术有限公司 | 文本情感分类方法、装置、电子设备及可读存储介质 |
US20200380301A1 (en) * | 2019-06-01 | 2020-12-03 | Apple Inc. | Techniques for machine language model creation |
CN110909144A (zh) * | 2019-11-28 | 2020-03-24 | 中信银行股份有限公司 | 问答对话方法、装置、电子设备及计算机可读存储介质 |
CN111428514A (zh) * | 2020-06-12 | 2020-07-17 | 北京百度网讯科技有限公司 | 语义匹配方法、装置、设备以及存储介质 |
CN111931513A (zh) * | 2020-07-08 | 2020-11-13 | 泰康保险集团股份有限公司 | 一种文本的意图识别方法及装置 |
CN112732920A (zh) * | 2021-01-15 | 2021-04-30 | 北京明略昭辉科技有限公司 | 基于bert的多特征融合实体情感分析方法及系统 |
CN112966106A (zh) * | 2021-03-05 | 2021-06-15 | 平安科技(深圳)有限公司 | 文本的情绪识别方法、装置、设备及存储介质 |
CN112685541A (zh) * | 2021-03-11 | 2021-04-20 | 中南大学 | 一种基于多任务学习的社交媒体谣言检测方法 |
Non-Patent Citations (1)
Title |
---|
王安君 等: "基于Bert-Condition-CNN的中文微博立场检测", 《计算机系统应用》, vol. 28, no. 11, 15 November 2019 (2019-11-15), pages 45 - 53 * |
Also Published As
Publication number | Publication date |
---|---|
CN114218381B (zh) | 2022-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109918673B (zh) | 语义仲裁方法、装置、电子设备和计算机可读存储介质 | |
CN110069709B (zh) | 意图识别方法、装置、计算机可读介质及电子设备 | |
CN111858843B (zh) | 一种文本分类方法及装置 | |
CN113010638B (zh) | 实体识别模型生成方法及装置、实体提取方法及装置 | |
CN116629275B (zh) | 一种基于大数据的智能决策支持系统及方法 | |
CN108959474B (zh) | 实体关系提取方法 | |
CN113469298B (zh) | 模型训练方法及资源推荐方法 | |
CN111460250A (zh) | 用于画像的数据的清洗方法、装置、介质及电子设备 | |
CN112686022A (zh) | 违规语料的检测方法、装置、计算机设备及存储介质 | |
CN110569502A (zh) | 一种违禁广告语的识别方法、装置、计算机设备及存储介质 | |
CN115935344A (zh) | 一种异常设备的识别方法、装置及电子设备 | |
CN115086182A (zh) | 邮件识别模型的优化方法、装置、电子设备及存储介质 | |
CN111291551A (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
CN116662555B (zh) | 一种请求文本处理方法、装置、电子设备及存储介质 | |
CN113609865A (zh) | 文本情感的识别方法、装置、电子设备及可读存储介质 | |
CN112669850A (zh) | 语音质量检测方法、装置、计算机设备及存储介质 | |
CN114218381B (zh) | 立场识别方法、装置、设备及介质 | |
CN110705308A (zh) | 语音信息的领域识别方法、装置、存储介质及电子设备 | |
CN116304014A (zh) | 训练实体类型识别模型的方法、实体类型识别方法及装置 | |
CN111222051A (zh) | 一种趋势预测模型的训练方法及装置 | |
CN115392787A (zh) | 企业的风险评估方法、装置、设备、存储介质及程序产品 | |
CN115168590A (zh) | 文本特征提取方法、模型训练方法、装置、设备及介质 | |
CN112071304B (zh) | 一种语意分析方法及装置 | |
CN112115981B (zh) | 一种社交网络博主的embedding评估方法及系统 | |
CN114254622A (zh) | 一种意图识别方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |