CN116187332A - 联合多视角字符嵌入的中文社交评论实体识别方法与装置 - Google Patents
联合多视角字符嵌入的中文社交评论实体识别方法与装置 Download PDFInfo
- Publication number
- CN116187332A CN116187332A CN202310146540.XA CN202310146540A CN116187332A CN 116187332 A CN116187332 A CN 116187332A CN 202310146540 A CN202310146540 A CN 202310146540A CN 116187332 A CN116187332 A CN 116187332A
- Authority
- CN
- China
- Prior art keywords
- character
- embedding
- word
- features
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 239000013598 vector Substances 0.000 claims abstract description 91
- 230000011218 segmentation Effects 0.000 claims description 22
- 238000004364 calculation method Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000010276 construction Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明提供一种联合多视角字符嵌入的中文社交评论实体识别方法与装置,涉及自然语言处理技术领域。包括:获取待识别中文社交评论实体的文本数据,并转换成字符序列和词级序列,输入到嵌入表示层得到多视角字符嵌入向量组和词级嵌入向量组,使用向量拼接方式拼接得到联合多视角字符嵌入向量组,将所述联合多视角字符嵌入向量组输入到序列建模层获取全局字符特征、局部字符特征、全局词特征和局部词特征,基于标签解码层,对所述全局字符特征、所述局部字符特征、所述全局词特征和所述局部词特征进行解码,获取标签序列。本方法通过原始语句中多视角字符嵌入和词级嵌入,有效解决了中文社交评论实体识别中字符替换和非正式表达等问题。
Description
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种联合多视角字符嵌入的中文社交评论实体识别方法与装置。
背景技术
信息技术的发展为人们的生活带来了很大的便利,但是每天巨大的信息量让人们目不暇接,对这些海量信息进行有效的信息提取和知识图谱构建有利于快速捕捉有用信息提高工作效率。对于信息识别和知识图谱构建,命名实体识别一直是重要的任务。而在中文互联网下,由于用户在中文社交评论当中的表达随意性,字符替换和非正式表达是普遍存在的问题。而现有的命名实体识别的方法针对中文社交评论中存在的字符替换和非正式表达等问题,尚不能给出很好的解决方案。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种联合多视角字符嵌入的中文社交评论实体识别方法与装置,解决了现有技术针对中文社交评论当中的实体字符替换和非正式表达等问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
第一方面,本发明提供了一种联合多视角字符嵌入的中文社交评论实体识别方法,所述方法包括:
获取待识别中文社交评论实体的文本数据,并将所述中文社交评论实体的文本数据转换成字符序列和词级序列;
将所述字符序列输入到嵌入表示层得到所述字符序列的多视角字符嵌入向量组;
将所述词级序列输入到嵌入表示层得到所述词级序列的词级嵌入向量组;
将所述多视角字符嵌入向量组与所述词级嵌入向量组使用向量拼接方式组合得到联合多视角字符嵌入向量组;
将所述联合多视角字符嵌入向量组输入到序列建模层获取全局字符特征、局部字符特征、全局词特征和局部词特征;
基于标签解码层,对所述全局字符特征、所述局部字符特征、所述全局词特征和所述局部词特征进行解码,获取标签序列。
优选地,所述将所述字符序列输入到嵌入表示层得到所述字符序列的多视角字符嵌入向量组,包括:使用多种嵌入方法从字符的多个视角提取字符特征;
所述多种嵌入方法包括字符嵌入、拼音嵌入、部首嵌入、字形嵌入;将利用所述字符嵌入、拼音嵌入、部首嵌入、字形嵌入得到的向量进行连接得到所述多视角字符嵌入向量组。
优选地,所述字符嵌入包括:基于BERT模型对所述待识别中文社交评论实体的文本数据进行编码,获取字符嵌入。
优选地,所述拼音嵌入包括:使用Python中的xpinyin库将所述待识别中文社交评论实体的文本数据中的汉字转化成拼音;使用word2vec模型提取所述拼音的拼音嵌入;基于所述拼音嵌入,利用全连接层提取基于上下文特征的拼音向量。
优选地,所述部首嵌入包括:从中文字符字典中查找待识别中文社交评论实体的文本数据中每个字符的部首;使用word2vec模型提取所述部首的部首嵌入;基于所述部首嵌入,利用全连接层提取基于上下文特征的部首向量。
优选地,所述字形嵌入包括:从中文字符字典中查找待识别中文社交评论实体的文本数据中每个字符对应的英文字母表示;使用word2vec模型提取所述字形的字形嵌入;基于所述字形嵌入,利用Bi-LSTM层提取基于上下文特征的字形向量。
优选地,所述将所述词级序列输入到嵌入表示层得到所述词级序列的词级嵌入向量组,包括:构建领域词典,并将所述领域词典加入到分词词典中;基于所述分词词典对所述待识别中文社交评论实体的文本数据进行分词;使用word2vec模型提取所述分词的词级嵌入。
优选地,所述构建领域词典包括:在相关社交媒体上收集相关领域评论数据;对收集到的所述评论数据进行预处理和分词,得到候选词;对每个所述候选词进行卡方统计,将得分大于阈值的候选词作为领域词典中的领域词。
优选地,所述将所述联合多视角字符嵌入向量组输入到序列建模层获取全局特征及局部特征,包括:所述序列建模层包括Bi-LSTM层和一个注意力机制层;
所述Bi-LSTM层基于所述联合多视角字符嵌入向量组获取全局字符特征、全局词特征;所述注意力机制层根据所述全局字符特征、所述全局词特征获取所述局部字符特征、局部词特征。
第二方面,本发明提供了一种联合多视角字符嵌入的中文社交评论实体识别装置,所述装置包括:
文本获取模块,用于获取待识别中文社交评论实体的文本数据,并将所述中文社交评论实体的文本数据转换成字符序列和词级序列;
嵌入表示模块,将所述字符序列输入到所述嵌入表示模块得到所述字符序列的多视角字符嵌入向量组;将所述词级序列输入到嵌入表示模块得到所述词级序列的词级嵌入向量组;
向量拼接模块,将所述多视角字符嵌入向量组与所述词级嵌入向量组组合得到联合多视角字符嵌入向量组;
序列建模模块,将所述联合多视角字符嵌入向量组输入到序列建模层获取全局字符特征、局部字符特征、全局词特征和局部词特征;
标签解码模块,对所述全局字符特征、所述局部字符特征、所述全局词特征和所述局部词特征进行解码,获取标签序列。
(三)有益效果
本发明提供了一种联合多视角字符嵌入的中文社交评论实体识别方法与装置。与现有技术相比,具备以下有益效果:
对于中文社交评论实体识别,本方案考虑到了中文字符及中文表达的特点,通过对字符的多视角特征提取及领域词典的构建,有效解决了中文社交评论字符替换与非正式表达的问题,提高了中文社交评论实体识别的成功率和准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提出的一种联合多视角字符嵌入的中文社交评论实体识别方法的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例通过提供一种联合多视角字符嵌入的中文社交评论实体识别方法与装置,解决了中文社交评论实体识别存在的字符替换和非正式表达等问题,实现针对中文社交评论实体更加精准的识别。
本发明实施例中的技术方案为解决上述技术问题,总体思路如下:
针对现有命名实体识别无法根据中文字符的特殊性及中文表达的特点对中文社交评论实体进行识别,本发明根据中文社交评论的特点,从中文字符的多个视角特征出发,同时构建领域词典,使用多种嵌入方法对字符、拼音、部首和字形进行嵌入并深度融合,以扩展字符的特征表示,明确实体边界。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
本发明提供了一种联合多视角字符嵌入的中文社交评论实体识别方法,所述方法包括:
获取待识别中文社交评论实体的文本数据,并将所述中文社交评论实体的文本数据转换成字符序列和词级序列;
将所述字符序列输入到嵌入表示层得到所述字符序列的多视角字符嵌入向量组;
将所述词级序列输入到嵌入表示层得到所述词级序列的词级嵌入向量组;
将所述多视角字符嵌入向量组与所述词级嵌入向量组使用向量拼接方式组合得到联合多视角字符嵌入向量组;
将所述联合多视角字符嵌入向量组输入到序列建模层获取全局字符特征、局部字符特征、全局词特征和局部词特征;
基于标签解码层,对所述全局字符特征、所述局部字符特征、所述全局词特征和所述局部词特征进行解码,获取标签序列。
其中标签解码层输出的标签序列即是中文社交评论实体识别的结果。本发明通过对字符的多视角特征提取及词级特征的提取,以扩展字符的特征表示,并明确实体边界。可以解决中文社交评论字符替换与非正式表达的问题。
优选地,所述将所述字符序列输入到嵌入表示层得到所述字符序列的多视角字符嵌入向量组,包括:使用多种嵌入方法从字符的多个视角提取字符特征;所述多种嵌入方法包括字符嵌入、拼音嵌入、部首嵌入、字形嵌入;将利用所述字符嵌入、拼音嵌入、部首嵌入、字形嵌入得到的向量进行连接得到所述多视角字符嵌入向量组。
根据中文字符本身的特点以及中文社交评论中经常出现的非正式表达的问题,本发明使用多视角字符嵌入及词级嵌入的方法提取字符特征。其中多视角字符嵌入是使用多种嵌入方法从字符的多个视角提取字符特征。词级嵌入是将原始语句分词后,使用嵌入方法从单词中提取特征。多视角字符嵌入主要包括四个部分1)字符嵌入;2)拼音嵌入;3)部首嵌入;4)字形嵌入。将利用所述字符嵌入、拼音嵌入、部首嵌入、字形嵌入得到的向量进行连接得到所述多视角字符嵌入向量组。本方法使用多种嵌入方法对字符、拼音、部首和字形进行嵌入并深度融合,以扩展字符的特征表示,明确实体边界,对在中文背景下的中文社交评论命名实体识别具有更好的识别效果。
优选地,所述字符嵌入包括:基于BERT模型对所述待识别中文社交评论实体的文本数据进行编码,获取字符嵌入。
其中字符嵌入使用BERT预训练语言模型,从原始语料中充分学习字符级、词语级和句子级的关系特征,来增强字符向量的语义表示。BERT模型使用多个Transformer双向编码器对字符进行编码,使得每个字符的深度双向表示都可以通过前向和后向文本信息来获得。给定一个评论句子S=(c1,c2,...,cl),字符嵌入可以通过BERT预训练模型获得:
优选地,所述拼音嵌入包括:使用Python中的xpinyin库将所述待识别中文社交评论实体的文本数据中的汉字转化成拼音;使用word2vec模型提取所述拼音的拼音嵌入;基于所述拼音嵌入,利用全连接层提取基于上下文特征的拼音向量。
拼音是一种辅助发音工具,它将4个声调字符和字母组合成1300个音节。据统计,3000个常用字符可以覆盖99%的书面材料。也就是说,一个音节可以对应相同的汉字。在中文社交评论中,命名实体中的一些字符经常被错误地替换成其他发音相同的字符。针对中文社交评论中经常出现的字符被错误地替换成其他发音相同的字符的问题,现有命名实体识别方案并没有针对这一问题提出针对性的解决方案,对此本发明对拼音进行嵌入,以扩展字符的特征表示。首先,使用Python中的xpinyin库将语料库中的汉字转化成拼音。然后,使用word2vec模型提取拼音嵌入。在此基础上,利用全连接层提取基于上下文特征的拼音向量。具体计算公式如下:
优选地,所述部首嵌入包括:从中文字符字典中查找待识别中文社交评论实体的文本数据中每个字符的部首;使用word2vec模型提取所述部首的部首嵌入;基于所述部首嵌入,利用全连接层提取基于上下文特征的部首向量。
部首是表达汉字意思的基本单位。每一个字符都有相应的部首,并且含有相同部首的字符意思相似,针对汉字的这一特性对部首进行嵌入,以扩展字符的特征表示。首先,从中文字符字典中查找语料库中每个字符的部首。然后,使用word2vec模型提取部首嵌入。在此基础上,利用全连接层提取基于上下文特征的部首向量。具体计算公式如下:
优选地,所述字形嵌入包括:从中文字符字典中查找待识别中文社交评论实体的文本数据中每个字符对应的英文字母表示;使用word2vec模型提取所述字形的字形嵌入;基于所述字形嵌入,利用Bi-LSTM层提取基于上下文特征的字形向量。
汉字由五种基本笔画组成:横、竖、撇、捺、折,并逐渐产生一系列的字符根。为了方便输入汉字,字符根被映射为25个英文字母(z除外)。每一个中文字符都可以被不多于4个英文字母表示。由于五笔输入法在中文输入法中比较常见,社交评论中的命名实体经常被错误地替换成其他包含相同字形的字符,针对汉字输入法的这一特性对字形进行嵌入,扩展字符的特征表示。首先,从中文字符字典中查找语料库中每个字符对应的英文字母表示。然后,使用word2vec模型提取字形嵌入。在此基础上,利用Bi-LSTM层提取基于上下文特征的字形向量。具体计算公式如下:
为了形成扩展的字符表示,将字符嵌入、拼音嵌入、部首嵌入和字形嵌入进行连接。公式如下:
优选地,所述将所述词级序列输入到嵌入表示层得到所述词级序列的词级嵌入向量组,包括:构建领域词典,并将所述领域词典加入到分词词典中;基于所述分词词典对所述待识别中文社交评论实体的文本数据进行分词;使用word2vec模型提取所述分词的词级嵌入。
由于中文有其特有的表述习惯,在对中文社交评论实体进行分词前,为了使分词结果更加准确,本发明针对中文表述的特点构建了领域词典,并将所述领域词典加入到分词词典中获得更准确的分词结果。最后,使用word2vec对每个词语进行向量化。
优选地,所述构建领域词典包括:在相关社交媒体上收集相关领域评论数据;对收集到的所述评论数据进行预处理和分词,得到候选词;对每个所述候选词进行卡方统计,将得分大于阈值的候选词作为领域词典中的领域词。
所述领域词典的构建过程为首先,在相关社交媒体上收集相关领域评论数据;然后,对收集到的数据进行预处理和分词,得到候选词并统计;最后,对每个候选词进行卡方统计,将得分大于阈值的候选词作为领域词典中的领域词。此外,邀请具有丰富行业经验的领域专家对领域词进行判断,最终得到领域词典。领域词典针对中文表述的特点,使得分词结果更加准确。
给定一个句子S=(c1,c2,...,cl),其分词后为S=(w1,w2,...,wm),使用word2vec模型得到词的嵌入。具体计算公式如下:
多视角字符嵌入和词级嵌入来自两种不同的信息源,前者来源于基于字符的多视角信息,而后者来源于领域知识。ci是wj中的字符,通过使用向量拼接方式组合多视角字符嵌入和词级嵌入。具体公式如下:
其中,xi是字符ci的联合多视角字符嵌入。
优选地,所述将所述联合多视角字符嵌入向量组输入到序列建模层获取全局特征及局部特征,包括:所述序列建模层包括Bi-LSTM层和一个注意力机制层;所述Bi-LSTM层基于所述联合多视角字符嵌入向量组获取全局字符特征、全局词特征;所述注意力机制层根据所述全局字符特征、所述全局词特征获取所述局部字符特征、局部词特征。
序列建模层主要包括一个Bi-LSTM层和一个注意力机制层。首先使用Bi-LSTM层来提取双向评论文本信息,可以提高特征表示的能力。同时,Bi-LSTM层缺乏对句子局部特征的获取能力,并存在梯度扩散现象。其次,使用注意力机制层获取句子局部特征,并对重要字符进行加权。
Bi-LSTM层由前向和后向LSTM网络组成,对嵌入表示层生成的嵌入进行学习。具体计算公式如下:
ft=σ(Wfht-1+Ufvt+bf);
it=σ(Wiht-1+Uivt+bi);
ot=σ(Woht-1+Uovt+bo);
gt=tanh(Wcht-1+Ucvt+bc);
ct=ft⊙ct-1+it⊙tanh(Wcht-1+Ucvt+bc);
ht=ot⊙tanh(ct);
其中,W和b分别表示权重矩阵和偏置向量,σ表示sigmoid激活函数,⊙表示点积运算,ft,it,ct,ot和ht分别表示遗忘门、输入门、记忆单元、输出门和隐藏状态的输入向量。最终隐藏状态ht表示如下:
H=(h1,h2,...,hl);
其中,H表示Bi-LSTM层生成的句子S=(c1,c2,…,cl)的特征表示。
给定由Bi-LSTM层产生的特征表示H=(h1,h2,…,hl),注意力机制的公式具体如下:
eij=Attention(si-1,hj);
aij=softmax(eij);
最后,标签解码层通过考虑相邻标签之间的关系对序列建模层输出的文本序列表示加以限制,来保证预测标签的合理性。对于每个句子S=(c1,c2,…,cl),其对应的标签序列集合是Y=(y1,y2,…,yl)。在命名实体识别任务中,其预测得分为:
最后,通过Viterbi算法得到所有序列上预测总分最高的预测,作为命名实体的标签结果,具体计算公式如下:
为了对本发明提供的方法有效性进行试验,以面向中文汽车评论的命名实体识别为例,要求识别出汽车评论中预定义的命名实体。
获取汽车领域评论数据并构建数据集,使用Python工具开发的爬虫算法对社交媒体网站上与汽车领域相关的评论数据进行爬取,如汽车之家、易车网等。然后,对爬取的评论数据进行数据预处理和数据标注以获得高质量且有效的实验数据集。在汽车社交领域中,我们预定义四类实体,分别是汽车品牌(BRA)、汽车型号(MOD)、汽车属性(ATT)和汽车结构(STR)。表1列出了每种实体类型的定义和实例。该专利采用BIO方案进行标注,即标签集合Set=[B,I,O];其中,B表示实体的开始,I表示实体的内部,O表示非实体。表2给出了数据标注的实例。
表1每种实体类型的定义和实例
表2数据标注的实例
通过上述步骤,得到包含4000条评论数据的数据集,并按照8:1:1的比例划分成训练集、测试集和验证集。实验数据集的统计信息如表3所示。将测试集输入到训练完成得到的社交评论实体识别模型中进行测试,并采用精确率(Precision,P)、召回率(Recall,R)和F1-score值对模型性能进行评估,具体公式如下:
其中,TP,FP和FN分别表示正确分类的正例实体、错误分类的正例实体和错误分类的负例实体。
表3实验数据集的统计数据
为了验证所提出的联合多视角字符嵌入的中文社交评论实体识别方法的有效性,将该方法和其余四种先进方法进行对比。表4展示了整体的实验结果对比。
表4实验结果
从试验结果可以清楚的看到,采用本发明的联合多视角字符嵌入的中文社交评论实体识别方法在精确率、召回率及F1-score值上的表现均优于现有其他方法。
另一方面,本发明提供了一种联合多视角字符嵌入的中文社交评论实体识别装置,其特征在于,所述装置包括:
文本获取模块,用于获取待识别中文社交评论实体的文本数据,并将所述中文社交评论实体的文本数据转换成字符序列和词级序列;
嵌入表示模块,将所述字符序列输入到所述嵌入表示模块得到所述字符序列的多视角字符嵌入向量组;将所述词级序列输入到嵌入表示模块得到所述词级序列的词级嵌入向量组;
向量拼接模块,将所述多视角字符嵌入向量组与所述词级嵌入向量组组合得到联合多视角字符嵌入向量组;
序列建模模块,将所述联合多视角字符嵌入向量组输入到序列建模层获取全局字符特征、局部字符特征、全局词特征和局部词特征;
标签解码模块,对所述全局字符特征、所述局部字符特征、所述全局词特征和所述局部词特征进行解码,获取标签序列。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种联合多视角字符嵌入的中文社交评论实体识别方法,其特征在于,所述方法包括:
获取待识别中文社交评论实体的文本数据,并将所述中文社交评论实体的文本数据转换成字符序列和词级序列;
将所述字符序列输入到嵌入表示层得到所述字符序列的多视角字符嵌入向量组;
将所述词级序列输入到嵌入表示层得到所述词级序列的词级嵌入向量组;
将所述多视角字符嵌入向量组与所述词级嵌入向量组使用向量拼接方式组合得到联合多视角字符嵌入向量组;
将所述联合多视角字符嵌入向量组输入到序列建模层,获取全局字符特征、局部字符特征、全局词特征和局部词特征;
基于标签解码层,对所述全局字符特征、所述局部字符特征、所述全局词特征和所述局部词特征进行解码,获取标签序列。
2.根据权利要求1所述的方法,其特征在于,所述将所述字符序列输入到嵌入表示层得到所述字符序列的多视角字符嵌入向量组,包括:
使用多种嵌入方法从字符的多个视角提取字符特征;
所述多种嵌入方法包括字符嵌入、拼音嵌入、部首嵌入、字形嵌入;
将利用所述字符嵌入、拼音嵌入、部首嵌入、字形嵌入得到的向量,采用向量拼接方式得到所述多视角字符嵌入向量组。
8.根据权利要求7所述的方法,其特征在于,所述构建领域词典包括:
在相关社交媒体上收集相关领域评论数据;
对收集到的所述评论数据进行预处理和分词,得到候选词;
对每个所述候选词进行卡方统计,将得分大于阈值的候选词作为领域词典中的领域词。
9.根据权利要求1所述的方法,其特征在于,所述将所述联合多视角字符嵌入向量组输入到序列建模层获取全局特征及局部特征,包括:
所述序列建模层包括Bi-LSTM层和一个注意力机制层;
所述Bi-LSTM层基于所述联合多视角字符嵌入向量组获取全局字符特征、全局词特征;
所述注意力机制层根据所述全局字符特征、所述全局词特征获取所述局部字符特征、局部词特征。
10.一种联合多视角字符嵌入的中文社交评论实体识别装置,其特征在于,所述装置包括:
文本获取模块,用于获取待识别中文社交评论实体的文本数据,并将所述中文社交评论实体的文本数据转换成字符序列和词级序列;
嵌入表示模块,将所述字符序列输入到所述嵌入表示模块得到所述字符序列的多视角字符嵌入向量组;将所述词级序列输入到嵌入表示模块得到所述词级序列的词级嵌入向量组;
向量拼接模块,将所述多视角字符嵌入向量组与所述词级嵌入向量组组合得到联合多视角字符嵌入向量组;
序列建模模块,将所述联合多视角字符嵌入向量组输入到序列建模层获取全局字符特征、局部字符特征、全局词特征和局部词特征;
标签解码模块,对所述全局字符特征、所述局部字符特征、所述全局词特征和所述局部词特征进行解码,获取标签序列。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310146540.XA CN116187332A (zh) | 2023-02-22 | 2023-02-22 | 联合多视角字符嵌入的中文社交评论实体识别方法与装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310146540.XA CN116187332A (zh) | 2023-02-22 | 2023-02-22 | 联合多视角字符嵌入的中文社交评论实体识别方法与装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116187332A true CN116187332A (zh) | 2023-05-30 |
Family
ID=86434236
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310146540.XA Pending CN116187332A (zh) | 2023-02-22 | 2023-02-22 | 联合多视角字符嵌入的中文社交评论实体识别方法与装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116187332A (zh) |
-
2023
- 2023-02-22 CN CN202310146540.XA patent/CN116187332A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109697232B (zh) | 一种基于深度学习的中文文本情感分析方法 | |
CN109871535B (zh) | 一种基于深度神经网络的法语命名实体识别方法 | |
CN110019839B (zh) | 基于神经网络和远程监督的医学知识图谱构建方法和系统 | |
CN109918666B (zh) | 一种基于神经网络的中文标点符号添加方法 | |
CN110059188B (zh) | 一种基于双向时间卷积网络的中文情感分析方法 | |
CN110245229B (zh) | 一种基于数据增强的深度学习主题情感分类方法 | |
CN108363743B (zh) | 一种智能问题生成方法、装置和计算机可读存储介质 | |
CN111209401A (zh) | 网络舆情文本信息情感极性分类处理系统及方法 | |
CN109753660B (zh) | 一种基于lstm的中标网页命名实体抽取方法 | |
CN111401061A (zh) | 基于BERT及BiLSTM-Attention的涉案新闻观点句识别方法 | |
CN111160031A (zh) | 一种基于词缀感知的社交媒体命名实体识别方法 | |
CN110765775A (zh) | 一种融合语义和标签差异的命名实体识别领域自适应的方法 | |
CN110414009B (zh) | 基于BiLSTM-CNN的英缅双语平行句对抽取方法及装置 | |
CN108446271A (zh) | 基于汉字部件特征的卷积神经网络的文本情感分析方法 | |
CN110276069A (zh) | 一种中国盲文错误自动检测方法、系统及存储介质 | |
CN113946677B (zh) | 基于双向循环神经网络和注意力机制的事件识别分类方法 | |
CN116151256A (zh) | 一种基于多任务和提示学习的小样本命名实体识别方法 | |
CN105955955A (zh) | 一种基于纠错输出编码的无需消歧的无监督词性标注方法 | |
CN112905736A (zh) | 一种基于量子理论的无监督文本情感分析方法 | |
CN112612871A (zh) | 一种基于序列生成模型的多事件检测方法 | |
CN115759119B (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN112069312A (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
CN114662495A (zh) | 一种基于深度学习的英文文献污染物信息抽取方法 | |
CN111444720A (zh) | 一种英文文本的命名实体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |