CN116187332A - 联合多视角字符嵌入的中文社交评论实体识别方法与装置 - Google Patents

联合多视角字符嵌入的中文社交评论实体识别方法与装置 Download PDF

Info

Publication number
CN116187332A
CN116187332A CN202310146540.XA CN202310146540A CN116187332A CN 116187332 A CN116187332 A CN 116187332A CN 202310146540 A CN202310146540 A CN 202310146540A CN 116187332 A CN116187332 A CN 116187332A
Authority
CN
China
Prior art keywords
character
embedding
word
features
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310146540.XA
Other languages
English (en)
Inventor
陈艺
秦琪
丁贾明
汪玉
王安宁
赵龙
李宾宾
杨瑞雪
包佳佳
丁洁
吕鹏飞
刘耕云
范明豪
马亚彬
翟玥
陈庆涛
黄杰
刘鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Electric Power Research Institute of State Grid Anhui Electric Power Co Ltd
Hefei University of Technology
Original Assignee
Electric Power Research Institute of State Grid Anhui Electric Power Co Ltd
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Electric Power Research Institute of State Grid Anhui Electric Power Co Ltd, Hefei University of Technology filed Critical Electric Power Research Institute of State Grid Anhui Electric Power Co Ltd
Priority to CN202310146540.XA priority Critical patent/CN116187332A/zh
Publication of CN116187332A publication Critical patent/CN116187332A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提供一种联合多视角字符嵌入的中文社交评论实体识别方法与装置,涉及自然语言处理技术领域。包括:获取待识别中文社交评论实体的文本数据,并转换成字符序列和词级序列,输入到嵌入表示层得到多视角字符嵌入向量组和词级嵌入向量组,使用向量拼接方式拼接得到联合多视角字符嵌入向量组,将所述联合多视角字符嵌入向量组输入到序列建模层获取全局字符特征、局部字符特征、全局词特征和局部词特征,基于标签解码层,对所述全局字符特征、所述局部字符特征、所述全局词特征和所述局部词特征进行解码,获取标签序列。本方法通过原始语句中多视角字符嵌入和词级嵌入,有效解决了中文社交评论实体识别中字符替换和非正式表达等问题。

Description

联合多视角字符嵌入的中文社交评论实体识别方法与装置
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种联合多视角字符嵌入的中文社交评论实体识别方法与装置。
背景技术
信息技术的发展为人们的生活带来了很大的便利,但是每天巨大的信息量让人们目不暇接,对这些海量信息进行有效的信息提取和知识图谱构建有利于快速捕捉有用信息提高工作效率。对于信息识别和知识图谱构建,命名实体识别一直是重要的任务。而在中文互联网下,由于用户在中文社交评论当中的表达随意性,字符替换和非正式表达是普遍存在的问题。而现有的命名实体识别的方法针对中文社交评论中存在的字符替换和非正式表达等问题,尚不能给出很好的解决方案。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种联合多视角字符嵌入的中文社交评论实体识别方法与装置,解决了现有技术针对中文社交评论当中的实体字符替换和非正式表达等问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
第一方面,本发明提供了一种联合多视角字符嵌入的中文社交评论实体识别方法,所述方法包括:
获取待识别中文社交评论实体的文本数据,并将所述中文社交评论实体的文本数据转换成字符序列和词级序列;
将所述字符序列输入到嵌入表示层得到所述字符序列的多视角字符嵌入向量组;
将所述词级序列输入到嵌入表示层得到所述词级序列的词级嵌入向量组;
将所述多视角字符嵌入向量组与所述词级嵌入向量组使用向量拼接方式组合得到联合多视角字符嵌入向量组;
将所述联合多视角字符嵌入向量组输入到序列建模层获取全局字符特征、局部字符特征、全局词特征和局部词特征;
基于标签解码层,对所述全局字符特征、所述局部字符特征、所述全局词特征和所述局部词特征进行解码,获取标签序列。
优选地,所述将所述字符序列输入到嵌入表示层得到所述字符序列的多视角字符嵌入向量组,包括:使用多种嵌入方法从字符的多个视角提取字符特征;
所述多种嵌入方法包括字符嵌入、拼音嵌入、部首嵌入、字形嵌入;将利用所述字符嵌入、拼音嵌入、部首嵌入、字形嵌入得到的向量进行连接得到所述多视角字符嵌入向量组。
优选地,所述字符嵌入包括:基于BERT模型对所述待识别中文社交评论实体的文本数据进行编码,获取字符嵌入。
优选地,所述拼音嵌入包括:使用Python中的xpinyin库将所述待识别中文社交评论实体的文本数据中的汉字转化成拼音;使用word2vec模型提取所述拼音的拼音嵌入;基于所述拼音嵌入,利用全连接层提取基于上下文特征的拼音向量。
优选地,所述部首嵌入包括:从中文字符字典中查找待识别中文社交评论实体的文本数据中每个字符的部首;使用word2vec模型提取所述部首的部首嵌入;基于所述部首嵌入,利用全连接层提取基于上下文特征的部首向量。
优选地,所述字形嵌入包括:从中文字符字典中查找待识别中文社交评论实体的文本数据中每个字符对应的英文字母表示;使用word2vec模型提取所述字形的字形嵌入;基于所述字形嵌入,利用Bi-LSTM层提取基于上下文特征的字形向量。
优选地,所述将所述词级序列输入到嵌入表示层得到所述词级序列的词级嵌入向量组,包括:构建领域词典,并将所述领域词典加入到分词词典中;基于所述分词词典对所述待识别中文社交评论实体的文本数据进行分词;使用word2vec模型提取所述分词的词级嵌入。
优选地,所述构建领域词典包括:在相关社交媒体上收集相关领域评论数据;对收集到的所述评论数据进行预处理和分词,得到候选词;对每个所述候选词进行卡方统计,将得分大于阈值的候选词作为领域词典中的领域词。
优选地,所述将所述联合多视角字符嵌入向量组输入到序列建模层获取全局特征及局部特征,包括:所述序列建模层包括Bi-LSTM层和一个注意力机制层;
所述Bi-LSTM层基于所述联合多视角字符嵌入向量组获取全局字符特征、全局词特征;所述注意力机制层根据所述全局字符特征、所述全局词特征获取所述局部字符特征、局部词特征。
第二方面,本发明提供了一种联合多视角字符嵌入的中文社交评论实体识别装置,所述装置包括:
文本获取模块,用于获取待识别中文社交评论实体的文本数据,并将所述中文社交评论实体的文本数据转换成字符序列和词级序列;
嵌入表示模块,将所述字符序列输入到所述嵌入表示模块得到所述字符序列的多视角字符嵌入向量组;将所述词级序列输入到嵌入表示模块得到所述词级序列的词级嵌入向量组;
向量拼接模块,将所述多视角字符嵌入向量组与所述词级嵌入向量组组合得到联合多视角字符嵌入向量组;
序列建模模块,将所述联合多视角字符嵌入向量组输入到序列建模层获取全局字符特征、局部字符特征、全局词特征和局部词特征;
标签解码模块,对所述全局字符特征、所述局部字符特征、所述全局词特征和所述局部词特征进行解码,获取标签序列。
(三)有益效果
本发明提供了一种联合多视角字符嵌入的中文社交评论实体识别方法与装置。与现有技术相比,具备以下有益效果:
对于中文社交评论实体识别,本方案考虑到了中文字符及中文表达的特点,通过对字符的多视角特征提取及领域词典的构建,有效解决了中文社交评论字符替换与非正式表达的问题,提高了中文社交评论实体识别的成功率和准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提出的一种联合多视角字符嵌入的中文社交评论实体识别方法的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例通过提供一种联合多视角字符嵌入的中文社交评论实体识别方法与装置,解决了中文社交评论实体识别存在的字符替换和非正式表达等问题,实现针对中文社交评论实体更加精准的识别。
本发明实施例中的技术方案为解决上述技术问题,总体思路如下:
针对现有命名实体识别无法根据中文字符的特殊性及中文表达的特点对中文社交评论实体进行识别,本发明根据中文社交评论的特点,从中文字符的多个视角特征出发,同时构建领域词典,使用多种嵌入方法对字符、拼音、部首和字形进行嵌入并深度融合,以扩展字符的特征表示,明确实体边界。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
本发明提供了一种联合多视角字符嵌入的中文社交评论实体识别方法,所述方法包括:
获取待识别中文社交评论实体的文本数据,并将所述中文社交评论实体的文本数据转换成字符序列和词级序列;
将所述字符序列输入到嵌入表示层得到所述字符序列的多视角字符嵌入向量组;
将所述词级序列输入到嵌入表示层得到所述词级序列的词级嵌入向量组;
将所述多视角字符嵌入向量组与所述词级嵌入向量组使用向量拼接方式组合得到联合多视角字符嵌入向量组;
将所述联合多视角字符嵌入向量组输入到序列建模层获取全局字符特征、局部字符特征、全局词特征和局部词特征;
基于标签解码层,对所述全局字符特征、所述局部字符特征、所述全局词特征和所述局部词特征进行解码,获取标签序列。
其中标签解码层输出的标签序列即是中文社交评论实体识别的结果。本发明通过对字符的多视角特征提取及词级特征的提取,以扩展字符的特征表示,并明确实体边界。可以解决中文社交评论字符替换与非正式表达的问题。
优选地,所述将所述字符序列输入到嵌入表示层得到所述字符序列的多视角字符嵌入向量组,包括:使用多种嵌入方法从字符的多个视角提取字符特征;所述多种嵌入方法包括字符嵌入、拼音嵌入、部首嵌入、字形嵌入;将利用所述字符嵌入、拼音嵌入、部首嵌入、字形嵌入得到的向量进行连接得到所述多视角字符嵌入向量组。
根据中文字符本身的特点以及中文社交评论中经常出现的非正式表达的问题,本发明使用多视角字符嵌入及词级嵌入的方法提取字符特征。其中多视角字符嵌入是使用多种嵌入方法从字符的多个视角提取字符特征。词级嵌入是将原始语句分词后,使用嵌入方法从单词中提取特征。多视角字符嵌入主要包括四个部分1)字符嵌入;2)拼音嵌入;3)部首嵌入;4)字形嵌入。将利用所述字符嵌入、拼音嵌入、部首嵌入、字形嵌入得到的向量进行连接得到所述多视角字符嵌入向量组。本方法使用多种嵌入方法对字符、拼音、部首和字形进行嵌入并深度融合,以扩展字符的特征表示,明确实体边界,对在中文背景下的中文社交评论命名实体识别具有更好的识别效果。
优选地,所述字符嵌入包括:基于BERT模型对所述待识别中文社交评论实体的文本数据进行编码,获取字符嵌入。
其中字符嵌入使用BERT预训练语言模型,从原始语料中充分学习字符级、词语级和句子级的关系特征,来增强字符向量的语义表示。BERT模型使用多个Transformer双向编码器对字符进行编码,使得每个字符的深度双向表示都可以通过前向和后向文本信息来获得。给定一个评论句子S=(c1,c2,...,cl),字符嵌入可以通过BERT预训练模型获得:
Figure BDA0004089306170000061
其中,
Figure BDA0004089306170000062
是ci的字符嵌入。
优选地,所述拼音嵌入包括:使用Python中的xpinyin库将所述待识别中文社交评论实体的文本数据中的汉字转化成拼音;使用word2vec模型提取所述拼音的拼音嵌入;基于所述拼音嵌入,利用全连接层提取基于上下文特征的拼音向量。
拼音是一种辅助发音工具,它将4个声调字符和字母组合成1300个音节。据统计,3000个常用字符可以覆盖99%的书面材料。也就是说,一个音节可以对应相同的汉字。在中文社交评论中,命名实体中的一些字符经常被错误地替换成其他发音相同的字符。针对中文社交评论中经常出现的字符被错误地替换成其他发音相同的字符的问题,现有命名实体识别方案并没有针对这一问题提出针对性的解决方案,对此本发明对拼音进行嵌入,以扩展字符的特征表示。首先,使用Python中的xpinyin库将语料库中的汉字转化成拼音。然后,使用word2vec模型提取拼音嵌入。在此基础上,利用全连接层提取基于上下文特征的拼音向量。具体计算公式如下:
Figure BDA0004089306170000071
Figure BDA0004089306170000072
Figure BDA0004089306170000073
其中,
Figure BDA0004089306170000074
表示句子中每个字符的拼音,xpinyin()表示字符到拼音的转换,Word2Vecp表示发音嵌入查找表,/>
Figure BDA0004089306170000075
是/>
Figure BDA0004089306170000076
的向量。
优选地,所述部首嵌入包括:从中文字符字典中查找待识别中文社交评论实体的文本数据中每个字符的部首;使用word2vec模型提取所述部首的部首嵌入;基于所述部首嵌入,利用全连接层提取基于上下文特征的部首向量。
部首是表达汉字意思的基本单位。每一个字符都有相应的部首,并且含有相同部首的字符意思相似,针对汉字的这一特性对部首进行嵌入,以扩展字符的特征表示。首先,从中文字符字典中查找语料库中每个字符的部首。然后,使用word2vec模型提取部首嵌入。在此基础上,利用全连接层提取基于上下文特征的部首向量。具体计算公式如下:
Figure BDA0004089306170000077
Figure BDA0004089306170000078
Figure BDA0004089306170000079
其中,
Figure BDA00040893061700000710
表示句子中每个字符的部首,Lookup_table()表示从汉字字典中提取每个字符的部首,Word2Vecr表示部首嵌入查找表,/>
Figure BDA00040893061700000711
是/>
Figure BDA00040893061700000712
的向量。
优选地,所述字形嵌入包括:从中文字符字典中查找待识别中文社交评论实体的文本数据中每个字符对应的英文字母表示;使用word2vec模型提取所述字形的字形嵌入;基于所述字形嵌入,利用Bi-LSTM层提取基于上下文特征的字形向量。
汉字由五种基本笔画组成:横、竖、撇、捺、折,并逐渐产生一系列的字符根。为了方便输入汉字,字符根被映射为25个英文字母(z除外)。每一个中文字符都可以被不多于4个英文字母表示。由于五笔输入法在中文输入法中比较常见,社交评论中的命名实体经常被错误地替换成其他包含相同字形的字符,针对汉字输入法的这一特性对字形进行嵌入,扩展字符的特征表示。首先,从中文字符字典中查找语料库中每个字符对应的英文字母表示。然后,使用word2vec模型提取字形嵌入。在此基础上,利用Bi-LSTM层提取基于上下文特征的字形向量。具体计算公式如下:
Figure BDA0004089306170000081
Figure BDA0004089306170000082
Figure BDA0004089306170000083
其中,
Figure BDA0004089306170000084
表示句子中每个字符的字形,字形由对应的英文字母表示,Lookup_table()表示从汉字字典中提取每个字符的字形,Word2Vecg表示字形嵌入查找表,/>
Figure BDA0004089306170000085
Figure BDA0004089306170000086
的向量。
为了形成扩展的字符表示,将字符嵌入、拼音嵌入、部首嵌入和字形嵌入进行连接。公式如下:
Figure BDA0004089306170000087
其中,
Figure BDA0004089306170000088
表示多视角字符嵌入。
优选地,所述将所述词级序列输入到嵌入表示层得到所述词级序列的词级嵌入向量组,包括:构建领域词典,并将所述领域词典加入到分词词典中;基于所述分词词典对所述待识别中文社交评论实体的文本数据进行分词;使用word2vec模型提取所述分词的词级嵌入。
由于中文有其特有的表述习惯,在对中文社交评论实体进行分词前,为了使分词结果更加准确,本发明针对中文表述的特点构建了领域词典,并将所述领域词典加入到分词词典中获得更准确的分词结果。最后,使用word2vec对每个词语进行向量化。
优选地,所述构建领域词典包括:在相关社交媒体上收集相关领域评论数据;对收集到的所述评论数据进行预处理和分词,得到候选词;对每个所述候选词进行卡方统计,将得分大于阈值的候选词作为领域词典中的领域词。
所述领域词典的构建过程为首先,在相关社交媒体上收集相关领域评论数据;然后,对收集到的数据进行预处理和分词,得到候选词并统计;最后,对每个候选词进行卡方统计,将得分大于阈值的候选词作为领域词典中的领域词。此外,邀请具有丰富行业经验的领域专家对领域词进行判断,最终得到领域词典。领域词典针对中文表述的特点,使得分词结果更加准确。
给定一个句子S=(c1,c2,...,cl),其分词后为S=(w1,w2,...,wm),使用word2vec模型得到词的嵌入。具体计算公式如下:
Figure BDA0004089306170000091
其中,Word2Vecw表示词嵌入查找表,
Figure BDA0004089306170000092
是wi的词嵌入。
多视角字符嵌入和词级嵌入来自两种不同的信息源,前者来源于基于字符的多视角信息,而后者来源于领域知识。ci是wj中的字符,通过使用向量拼接方式组合多视角字符嵌入和词级嵌入。具体公式如下:
Figure BDA0004089306170000093
其中,xi是字符ci的联合多视角字符嵌入。
优选地,所述将所述联合多视角字符嵌入向量组输入到序列建模层获取全局特征及局部特征,包括:所述序列建模层包括Bi-LSTM层和一个注意力机制层;所述Bi-LSTM层基于所述联合多视角字符嵌入向量组获取全局字符特征、全局词特征;所述注意力机制层根据所述全局字符特征、所述全局词特征获取所述局部字符特征、局部词特征。
序列建模层主要包括一个Bi-LSTM层和一个注意力机制层。首先使用Bi-LSTM层来提取双向评论文本信息,可以提高特征表示的能力。同时,Bi-LSTM层缺乏对句子局部特征的获取能力,并存在梯度扩散现象。其次,使用注意力机制层获取句子局部特征,并对重要字符进行加权。
Bi-LSTM层由前向和后向LSTM网络组成,对嵌入表示层生成的嵌入进行学习。具体计算公式如下:
Figure BDA0004089306170000106
Figure BDA0004089306170000101
其中
Figure BDA0004089306170000102
和/>
Figure BDA0004089306170000103
分别代表t时刻字符ci前向和后向LSTM的隐藏状态。LSTM主要由四个部分组成:内存单元、输入门、遗忘门和输出门。具体计算公式如下:
ft=σ(Wfht-1+Ufvt+bf);
it=σ(Wiht-1+Uivt+bi);
ot=σ(Woht-1+Uovt+bo);
gt=tanh(Wcht-1+Ucvt+bc);
ct=ft⊙ct-1+it⊙tanh(Wcht-1+Ucvt+bc);
ht=ot⊙tanh(ct);
其中,W和b分别表示权重矩阵和偏置向量,σ表示sigmoid激活函数,⊙表示点积运算,ft,it,ct,ot和ht分别表示遗忘门、输入门、记忆单元、输出门和隐藏状态的输入向量。最终隐藏状态ht表示如下:
Figure BDA0004089306170000104
H=(h1,h2,...,hl);
其中,H表示Bi-LSTM层生成的句子S=(c1,c2,…,cl)的特征表示。
给定由Bi-LSTM层产生的特征表示H=(h1,h2,…,hl),注意力机制的公式具体如下:
eij=Attention(si-1,hj);
aij=softmax(eij);
Figure BDA0004089306170000105
其中,eij表示注意力得分函数,aij表示隐藏状态ht的注意力分布,
Figure BDA0004089306170000111
是最终的文本序列表示。
所述最终的文本序列表示
Figure BDA0004089306170000112
经过线性层,被转化为标签预测概率:
Figure BDA0004089306170000113
其中,
Figure BDA0004089306170000114
和bh表示线性层的权重矩阵和偏差项。
最后,标签解码层通过考虑相邻标签之间的关系对序列建模层输出的文本序列表示加以限制,来保证预测标签的合理性。对于每个句子S=(c1,c2,…,cl),其对应的标签序列集合是Y=(y1,y2,…,yl)。在命名实体识别任务中,其预测得分为:
Figure BDA0004089306170000115
其中,l为序列长度,A为转移得分矩阵,
Figure BDA0004089306170000116
表示第i个位置标签输出yi的概率,Aij表示从标签i到标签j的转移得分,并利用softmax函数进行归一化,得到y序列标签的最大概率。具体计算公式如下:
Figure BDA0004089306170000117
其中,
Figure BDA0004089306170000118
表示真实标签,Yx是所有可能的标签集合。在训练过程中,正确标签序列的最大似然概率计算公式如下:
Figure BDA0004089306170000119
最后,通过Viterbi算法得到所有序列上预测总分最高的预测,作为命名实体的标签结果,具体计算公式如下:
Figure BDA00040893061700001110
为了对本发明提供的方法有效性进行试验,以面向中文汽车评论的命名实体识别为例,要求识别出汽车评论中预定义的命名实体。
获取汽车领域评论数据并构建数据集,使用Python工具开发的爬虫算法对社交媒体网站上与汽车领域相关的评论数据进行爬取,如汽车之家、易车网等。然后,对爬取的评论数据进行数据预处理和数据标注以获得高质量且有效的实验数据集。在汽车社交领域中,我们预定义四类实体,分别是汽车品牌(BRA)、汽车型号(MOD)、汽车属性(ATT)和汽车结构(STR)。表1列出了每种实体类型的定义和实例。该专利采用BIO方案进行标注,即标签集合Set=[B,I,O];其中,B表示实体的开始,I表示实体的内部,O表示非实体。表2给出了数据标注的实例。
表1每种实体类型的定义和实例
Figure BDA0004089306170000121
表2数据标注的实例
Figure BDA0004089306170000122
通过上述步骤,得到包含4000条评论数据的数据集,并按照8:1:1的比例划分成训练集、测试集和验证集。实验数据集的统计信息如表3所示。将测试集输入到训练完成得到的社交评论实体识别模型中进行测试,并采用精确率(Precision,P)、召回率(Recall,R)和F1-score值对模型性能进行评估,具体公式如下:
Figure BDA0004089306170000131
/>
Figure BDA0004089306170000132
Figure BDA0004089306170000133
其中,TP,FP和FN分别表示正确分类的正例实体、错误分类的正例实体和错误分类的负例实体。
表3实验数据集的统计数据
Figure BDA0004089306170000134
为了验证所提出的联合多视角字符嵌入的中文社交评论实体识别方法的有效性,将该方法和其余四种先进方法进行对比。表4展示了整体的实验结果对比。
表4实验结果
Figure BDA0004089306170000135
从试验结果可以清楚的看到,采用本发明的联合多视角字符嵌入的中文社交评论实体识别方法在精确率、召回率及F1-score值上的表现均优于现有其他方法。
另一方面,本发明提供了一种联合多视角字符嵌入的中文社交评论实体识别装置,其特征在于,所述装置包括:
文本获取模块,用于获取待识别中文社交评论实体的文本数据,并将所述中文社交评论实体的文本数据转换成字符序列和词级序列;
嵌入表示模块,将所述字符序列输入到所述嵌入表示模块得到所述字符序列的多视角字符嵌入向量组;将所述词级序列输入到嵌入表示模块得到所述词级序列的词级嵌入向量组;
向量拼接模块,将所述多视角字符嵌入向量组与所述词级嵌入向量组组合得到联合多视角字符嵌入向量组;
序列建模模块,将所述联合多视角字符嵌入向量组输入到序列建模层获取全局字符特征、局部字符特征、全局词特征和局部词特征;
标签解码模块,对所述全局字符特征、所述局部字符特征、所述全局词特征和所述局部词特征进行解码,获取标签序列。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种联合多视角字符嵌入的中文社交评论实体识别方法,其特征在于,所述方法包括:
获取待识别中文社交评论实体的文本数据,并将所述中文社交评论实体的文本数据转换成字符序列和词级序列;
将所述字符序列输入到嵌入表示层得到所述字符序列的多视角字符嵌入向量组;
将所述词级序列输入到嵌入表示层得到所述词级序列的词级嵌入向量组;
将所述多视角字符嵌入向量组与所述词级嵌入向量组使用向量拼接方式组合得到联合多视角字符嵌入向量组;
将所述联合多视角字符嵌入向量组输入到序列建模层,获取全局字符特征、局部字符特征、全局词特征和局部词特征;
基于标签解码层,对所述全局字符特征、所述局部字符特征、所述全局词特征和所述局部词特征进行解码,获取标签序列。
2.根据权利要求1所述的方法,其特征在于,所述将所述字符序列输入到嵌入表示层得到所述字符序列的多视角字符嵌入向量组,包括:
使用多种嵌入方法从字符的多个视角提取字符特征;
所述多种嵌入方法包括字符嵌入、拼音嵌入、部首嵌入、字形嵌入;
将利用所述字符嵌入、拼音嵌入、部首嵌入、字形嵌入得到的向量,采用向量拼接方式得到所述多视角字符嵌入向量组。
3.根据权利要求2所述的方法,其特征在于,所述字符嵌入包括:
基于BERT模型对所述待识别中文社交评论实体的文本数据进行编码,获取字符嵌入;
所述基于BERT模型对所述待识别中文社交评论实体的文本数据进行编码,获取字符嵌入的计算过程为:给定待评论句子S=(c1,c2,...,cl),通过BERT预训练模型获得:
Figure FDA0004089306160000021
其中,
Figure FDA0004089306160000022
是ci的字符嵌入。
4.根据权利要求2所述的方法,其特征在于,所述拼音嵌入包括:
使用Python中的xpinyin库将所述待识别中文社交评论实体的文本数据中的汉字转化成拼音;
使用word2vec模型提取所述拼音的拼音嵌入;
基于所述拼音嵌入,利用全连接层提取基于上下文特征的拼音向量;
所述拼音嵌入的计算过程为:
Figure FDA0004089306160000023
Figure FDA0004089306160000024
Figure FDA0004089306160000025
其中,
Figure FDA0004089306160000026
表示句子中每个字符的拼音,xpinyin()表示字符到拼音的转换,Word2Vecp表示发音嵌入查找表,/>
Figure FDA0004089306160000027
是/>
Figure FDA0004089306160000028
的嵌入。
5.根据权利要求2所述的方法,其特征在于,所述部首嵌入包括:
从中文字符字典中查找待识别中文社交评论实体的文本数据中每个字符的部首;
使用word2vec模型提取所述部首的部首嵌入;
基于所述部首嵌入,利用全连接层提取基于上下文特征的部首向量。
所述部首嵌入的计算过程为:
Figure FDA0004089306160000029
Figure FDA00040893061600000210
Figure FDA00040893061600000211
其中,
Figure FDA00040893061600000212
表示句子中每个字符的部首,Lookup_table()表示从汉字字典中提取每个字符的部首,Word2Vecr表示部首嵌入查找表,/>
Figure FDA00040893061600000213
是/>
Figure FDA00040893061600000214
的嵌入。
6.根据权利要求2所述的方法,其特征在于,所述字形嵌入包括:
从中文字符字典中查找待识别中文社交评论实体的文本数据中每个字符对应的英文字母表示;
使用word2vec模型提取所述字形的字形嵌入;
基于所述字形嵌入,利用Bi-LSTM层提取基于上下文特征的字形向量。
所述字形嵌入的计算过程为:
Figure FDA0004089306160000031
Figure FDA0004089306160000032
Figure FDA0004089306160000033
其中,
Figure FDA0004089306160000034
表示句子中每个字符的字形,字形由对应的英文字母表示,Lookup_table()表示从汉字字典中提取每个字符的字形,Word2Vecg表示字形嵌入查找表,/>
Figure FDA0004089306160000035
是/>
Figure FDA0004089306160000036
的向量。
7.根据权利要求1所述的方法,其特征在于,所述将所述词级序列输入到嵌入表示层得到所述词级序列的词级嵌入向量组,包括:
构建领域词典,并将所述领域词典加入到分词词典中;
基于所述分词词典对所述待识别中文社交评论实体的文本数据进行分词;
使用word2vec模型提取所述分词的词级嵌入;
所述将所述词级序列输入到嵌入表示层得到所述词级序列的词级嵌入向量组的计算过程为:
给定一个句子S=(c1,c2,…,cl),其分词后为S=(w1,w2,…,wm),使用word2vec模型得到词的嵌入:
Figure FDA0004089306160000037
其中,Word2Vecw表示词嵌入查找表,
Figure FDA0004089306160000038
是wi的词嵌入。
8.根据权利要求7所述的方法,其特征在于,所述构建领域词典包括:
在相关社交媒体上收集相关领域评论数据;
对收集到的所述评论数据进行预处理和分词,得到候选词;
对每个所述候选词进行卡方统计,将得分大于阈值的候选词作为领域词典中的领域词。
9.根据权利要求1所述的方法,其特征在于,所述将所述联合多视角字符嵌入向量组输入到序列建模层获取全局特征及局部特征,包括:
所述序列建模层包括Bi-LSTM层和一个注意力机制层;
所述Bi-LSTM层基于所述联合多视角字符嵌入向量组获取全局字符特征、全局词特征;
所述注意力机制层根据所述全局字符特征、所述全局词特征获取所述局部字符特征、局部词特征。
10.一种联合多视角字符嵌入的中文社交评论实体识别装置,其特征在于,所述装置包括:
文本获取模块,用于获取待识别中文社交评论实体的文本数据,并将所述中文社交评论实体的文本数据转换成字符序列和词级序列;
嵌入表示模块,将所述字符序列输入到所述嵌入表示模块得到所述字符序列的多视角字符嵌入向量组;将所述词级序列输入到嵌入表示模块得到所述词级序列的词级嵌入向量组;
向量拼接模块,将所述多视角字符嵌入向量组与所述词级嵌入向量组组合得到联合多视角字符嵌入向量组;
序列建模模块,将所述联合多视角字符嵌入向量组输入到序列建模层获取全局字符特征、局部字符特征、全局词特征和局部词特征;
标签解码模块,对所述全局字符特征、所述局部字符特征、所述全局词特征和所述局部词特征进行解码,获取标签序列。
CN202310146540.XA 2023-02-22 2023-02-22 联合多视角字符嵌入的中文社交评论实体识别方法与装置 Pending CN116187332A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310146540.XA CN116187332A (zh) 2023-02-22 2023-02-22 联合多视角字符嵌入的中文社交评论实体识别方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310146540.XA CN116187332A (zh) 2023-02-22 2023-02-22 联合多视角字符嵌入的中文社交评论实体识别方法与装置

Publications (1)

Publication Number Publication Date
CN116187332A true CN116187332A (zh) 2023-05-30

Family

ID=86434236

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310146540.XA Pending CN116187332A (zh) 2023-02-22 2023-02-22 联合多视角字符嵌入的中文社交评论实体识别方法与装置

Country Status (1)

Country Link
CN (1) CN116187332A (zh)

Similar Documents

Publication Publication Date Title
CN109697232B (zh) 一种基于深度学习的中文文本情感分析方法
CN109871535B (zh) 一种基于深度神经网络的法语命名实体识别方法
CN110019839B (zh) 基于神经网络和远程监督的医学知识图谱构建方法和系统
CN109918666B (zh) 一种基于神经网络的中文标点符号添加方法
CN110059188B (zh) 一种基于双向时间卷积网络的中文情感分析方法
CN110245229B (zh) 一种基于数据增强的深度学习主题情感分类方法
CN108363743B (zh) 一种智能问题生成方法、装置和计算机可读存储介质
CN111209401A (zh) 网络舆情文本信息情感极性分类处理系统及方法
CN109753660B (zh) 一种基于lstm的中标网页命名实体抽取方法
CN111401061A (zh) 基于BERT及BiLSTM-Attention的涉案新闻观点句识别方法
CN111160031A (zh) 一种基于词缀感知的社交媒体命名实体识别方法
CN110765775A (zh) 一种融合语义和标签差异的命名实体识别领域自适应的方法
CN110414009B (zh) 基于BiLSTM-CNN的英缅双语平行句对抽取方法及装置
CN108446271A (zh) 基于汉字部件特征的卷积神经网络的文本情感分析方法
CN110276069A (zh) 一种中国盲文错误自动检测方法、系统及存储介质
CN113946677B (zh) 基于双向循环神经网络和注意力机制的事件识别分类方法
CN116151256A (zh) 一种基于多任务和提示学习的小样本命名实体识别方法
CN105955955A (zh) 一种基于纠错输出编码的无需消歧的无监督词性标注方法
CN112905736A (zh) 一种基于量子理论的无监督文本情感分析方法
CN112612871A (zh) 一种基于序列生成模型的多事件检测方法
CN115759119B (zh) 一种金融文本情感分析方法、系统、介质和设备
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置
CN114662495A (zh) 一种基于深度学习的英文文献污染物信息抽取方法
CN111444720A (zh) 一种英文文本的命名实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination