CN112380868B - 一种基于事件三元组的信访目的多分类装置及其方法 - Google Patents
一种基于事件三元组的信访目的多分类装置及其方法 Download PDFInfo
- Publication number
- CN112380868B CN112380868B CN202011455907.9A CN202011455907A CN112380868B CN 112380868 B CN112380868 B CN 112380868B CN 202011455907 A CN202011455907 A CN 202011455907A CN 112380868 B CN112380868 B CN 112380868B
- Authority
- CN
- China
- Prior art keywords
- speech
- word
- sentence
- event
- letters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000010276 construction Methods 0.000 claims abstract description 23
- 238000012937 correction Methods 0.000 claims abstract description 5
- 230000011218 segmentation Effects 0.000 claims description 35
- 238000013145 classification model Methods 0.000 claims description 20
- 238000002372 labelling Methods 0.000 claims description 19
- 238000004458 analytical method Methods 0.000 claims description 16
- 230000001502 supplementing effect Effects 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 4
- 239000013589 supplement Substances 0.000 claims 1
- 238000003058 natural language processing Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012163 sequencing technique Methods 0.000 description 3
- 241000590419 Polygonia interrogationis Species 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services; Handling legal documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Tourism & Hospitality (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Technology Law (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及自然语言处理领域,尤其是一种基于事件三元组的信访目的多分类装置及其方法,针对信访件信访详情的主体信息精准提取的问题,现提出如下方案,其多分类装置包括:信访件预处理模块:用于信访件详情的分句、分词和词性标注,形成句子集、词集和词性集;命名实体修正模块:用于识别及提取信访件详情命名实体,并对词集和词性集进行修正;事件三元组构建模块:用于对所述修正后的词集和词性集构建事件三元组,本发明实现了基于事件三元组的信访件信访目的多分类,为信访相关业务人员提供了便捷的技术支持。
Description
技术领域
本发明涉及自然语言处理领域,尤其涉及一种基于事件三元组的信访目的多分类装置及其方法。
背景技术
目前随着深度学习在自然语言处理领域的不断应用,一些经典的自然语言处理问题已经得到很好解决,如文本分类问题。但深度学习模型为一种黑盒模型,采用端到端的训练方法,人们无法在模型训练过程中对特征做过多操作,因此为保障分类模型的效果,则需更准确的提取输入模型的特征。
信访件是公民向国家政党、政府等反映情况,表达自身意见,请求解决问题的一种形式。对信访件进行信访目的分类,可有效帮助相关业务人员快速理解信件目的、分派信件等提供信息支撑。但信访件详情中涵盖了信访人反映事件的原因、经过、自身所处的现状等,且存在为构建弱者形象过多描述自身处境艰难的信息,此部分信息对识别信访目的的识别意义不大,属于冗余信息。现有技术多为对信件详情提取摘要或仅提取命名实体等作为特征输入分类模型中,易存在关键信息遗漏或与原文意见差距过大,因此需对输入分类模型中的特征进行更精准的提取。
综上所述,为解决信访件信访详情的主体信息精准提取的问题,提高信访件信访目的分类效果,本发明提出了一种基于事件三元组的信访件信访目的多分类方法和装置。该方法充分考虑了信访件详情多含描述事件原因、经过、自身现状等冗余信息,通过构建事件三元组并提取关键句形式,得到描述信访详情的主体信息,且为减少分词误差通过命名实体识别以修正分词结果,提高信访件信访目的多分类的准确性。
发明内容
基于背景技术存在的技术问题,本发明提出了一种基于事件三元组的信访目的多分类装置及其方法。
本发明提出的一种基于事件三元组的信访件信访目的多分类装置,包括:
信访件预处理模块:用于信访件详情的分句、分词和词性标注,形成句子集、词集和词性集;
命名实体修正模块:用于识别及提取信访件详情命名实体,并对词集和词性集进行修正;
事件三元组构建模块:用于对所述修正后的词集和词性集构建事件三元组;
综合特征构建模块:用于提取关键句并与事件三元组融合成综合特征;
信访目的多分类模块:用于基于所述综合特征,进行信访目的多分类。
优选的,所述信访件预处理模块,具体包括:分句处理单元:用于将输入的信访件详情文本按照预设的符号进行拆分,得到所述句子集;分词和词性标注处理单元:用于将分句后的句子集进行分词和词性标注,得到所述的词集和词性集。
优选的,所述事件三元组构建模块,具体包括:
事件三元组初构建单元:用于对修正后的词集和词性集进行语义角色标注,提取事件三元组集;
事件三元组补充单元:用于对初构建后为空的事件三元组进行补充,通过对修正后的词集和词性集进行依存句法分析,提取主谓关系和动宾关系组成事件三元组。
优选的,所述综合特征构建模块,具体包括:
关键句提取单元:用于根据预设的领域关键词集对所述的句子集提取关键句集;
特征融合单元:用于对关键句集和事件三元组集按照在信访件详情中的顺序进行排序及拼接,形成待分类的综合特征。
优选的,所述信访目的多分类模块是用于将综合特征输入预设的已训练的文本多分类模型中,结合预设的信访目的类别,得到信访件的信访目的分类结果
一种基于事件三元组的信访目的多分类方法,包括以下步骤:
S1:将待分类的信访件详情文本进行分句、分词和词性标注形成句子集、词集和词性集;
S2:通过命名实体识别与抽取以修正词集和词性集;
S3:由修正后的词集和词性集构建事件三元组;
S4:根据领域关键词集提取关键句,融合关键句和事件三元组形成综合特征;
S5:基于综合特征进行信访件信访目的多分类。
优选的,所述S1中,待分类信访件详情文本进行分句、分词和词性标注形成句子集S=(s1,s2,s3,…,su)、词集W=(w1,w2,w3,…,wv)和词性集P=(p1,p2,p3,…,pv),其中u为信访件详情文本形成的句子数,v为信访件详情文本形成的词个数且词性个数与词个数相等。
优选的,所述S2中,通过命名实体识别与抽取以修正词集和词性集,具体包括:
A1:根据词集W和词性集P识别命名实体,获取命名实体元组集R=(r1,r2,r3,…,rh),其中h为命名实体元组个数,ri=(ind1i,ind2i,posi)为单个实体元组,i=1,2,3,…,h,ind1i为实体开始词索引,ind2i为实体结束词索引,posi为实体词性;
A2:遍历命名实体元组集R中各实体元组ri,利用开始词索引至结束词索引,从词集W中抽取对应索引的词进行合并后替换原词以形成修正后的词集W′,从词性集P中删除对应索引的词性后替换成该实体词性形成修正后的词性集P′。
优选的,所述S3中,由修正后的词集和词性集构建三元组,具体包括:
A1:通过语义角色标注对修正后的词集W′和词性集P′构建事件三元组集T=(t1,t2,t3,...,te),其中e为三元组个数,ti=(a1i,opi,a2i)为单个三元组,i=1,2,3,...,e,a1i为语义角色标注结果中的施事者即前项实体,a2i为语义角色标注结果中的受事者即后项实体,opi为语义角色标注结果中的角色即关系;
A2:若语义角色标注结果为空时,则通过依存句法分析构建事件三元组进行补充:进行依存句法分析得到主谓关系SBV=(sub,verb,op)和动宾关系VOB=(verb,obj,op),其中sub为主语,verb为谓语动词,obj为宾语,op为依存关系;将两组关系中含有相同谓语动词的主语、谓语动词、宾语组成事件三元组,作为语义角色标注结果为空时的补充。
优选的,所述S4中,领域关键词集为业务人员根据经验整理的信访目的识别领域相关词集;所述关键句提取过程为:根据领域关键词集,遍历句子集S提取含任一领域关键词的句子形成关键句集S′=(s1,s2,s3,...,sg),其中g为关键句个数;所述的综合特征为关键句集和事件三元组集中关键句与三元组,按照在信访件详情中出现的先后顺序进行拼接形成的文本,该文本即为待分类信访件详情的主体信息。
优选的,所述S5中,基于综合特征进行信访目的多分类,具体包括:将所述综合特征输入文本多分类模型,所述文本多分类模型是通过自学习模型训练得到。
本发明的有益效果是:
(1)本发明充分考虑了信访件详情多含描述事件原因、经过、自身所处现状等冗余信息,通过构建事件三元组并结合提取的领域相关关键句,得到描述信访详情的主体信息,避免了因冗余信息对分类效果的干扰;
(2)不同信访人对信访事件的描述多变,因此信访件详情中对于实体的描述具有多样性,本发明通过命名实体识别及抽取,对信访件详情分词后进行修正,可减少分词误差带来的命名实体未被准确切分的情况;
(3)本发明实现了基于事件三元组的信访件信访目的多分类,为信访相关业务人员提供了便捷的技术支持。
附图说明
图1为本发明提出的一种基于事件三元组的信访目的多分类装置及其方法的流程图;
图2为本发明提出的一种基于事件三元组的信访目的多分类装置及其方法的通过命名实体识别与抽取修正词集和词性集的过程示例图;
图3为本发明提出的一种基于事件三元组的信访目的多分类装置及其方法的结构示图;
具体实施方式
下面结合具体实施例对本发明作进一步解说。
实施例
参照图1-3;本发明提出了一种基于事件三元组的信访件信访目的多分类装置,包括:
信访件预处理模块:用于信访件详情的分句、分词和词性标注,形成句子集、词集和词性集;
命名实体修正模块:用于识别及提取信访件详情命名实体,并对词集和词性集进行修正;
事件三元组构建模块:用于对所述修正后的词集和词性集构建事件三元组;
综合特征构建模块:用于提取关键句并与事件三元组融合成综合特征;
信访目的多分类模块:用于基于所述综合特征,进行信访目的多分类。
本实施例中,所述信访件预处理模块,具体包括:分句处理单元:用于将输入的信访件详情文本按照预设的符号进行拆分,得到所述句子集;分词和词性标注处理单元:用于将分句后的句子集进行分词和词性标注,得到所述的词集和词性集。
本实施例中,所述事件三元组构建模块,具体包括:
事件三元组初构建单元:用于对修正后的词集和词性集进行语义角色标注,提取事件三元组集;
事件三元组补充单元:用于对初构建后为空的事件三元组进行补充,通过对修正后的词集和词性集进行依存句法分析,提取主谓关系和动宾关系组成事件三元组。
本实施例中,所述综合特征构建模块,具体包括:
关键句提取单元:用于根据预设的领域关键词集对所述的句子集提取关键句集;
特征融合单元:用于对关键句集和事件三元组集按照在信访件详情中的顺序进行排序及拼接,形成待分类的综合特征。
本实施例中,所述信访目的多分类模块是用于将综合特征输入预设的已训练的文本多分类模型中,结合预设的信访目的类别,得到信访件的信访目的分类结果
一种基于事件三元组的信访目的多分类方法,包括以下步骤:
S1:将待分类的信访件详情文本进行分句、分词和词性标注形成句子集、词集和词性集;
S2:通过命名实体识别与抽取以修正词集和词性集;
S3:由修正后的词集和词性集构建事件三元组;
S4:根据领域关键词集提取关键句,融合关键句和事件三元组形成综合特征;
S5:基于综合特征进行信访件信访目的多分类。
本实施例中,所述S1中,待分类信访件详情文本进行分句、分词和词性标注形成句子集S=(s1,s2,s3,...,su)、词集W=(w1,w2,w3,...,wv)和词性集P=(p1,p2,p3,...,pv),其中u为信访件详情文本形成的句子数,v为信访件详情文本形成的词个数且词性个数与词个数相等。
本实施例中,所述S2中,通过命名实体识别与抽取以修正词集和词性集,具体包括:
A1:根据词集W和词性集P识别命名实体,获取命名实体元组集R=(r1,r2,r3,...,rh),其中h为命名实体元组个数,ri=(ind1i,ind2i,posi)为单个实体元组,i=1,2,3,...,h,ind1i为实体开始词索引,ind2i为实体结束词索引,posi为实体词性;
A2:遍历命名实体元组集R中各实体元组ri,利用开始词索引至结束词索引,从词集W中抽取对应索引的词进行合并后替换原词以形成修正后的词集W′,从词性集P中删除对应索引的词性后替换成该实体词性形成修正后的词性集P′。
本实施例中,所述S3中,由修正后的词集和词性集构建三元组,具体包括:
A1:通过语义角色标注对修正后的词集W′和词性集P′构建事件三元组集T=(t1,t2,t3,...,te),其中e为三元组个数,ti=(a1i,opi,a2i)为单个三元组,i=1,2,3,...,e,a1i为语义角色标注结果中的施事者即前项实体,a2i为语义角色标注结果中的受事者即后项实体,opi为语义角色标注结果中的角色即关系;
A2:若语义角色标注结果为空时,则通过依存句法分析构建事件三元组进行补充:进行依存句法分析得到主谓关系SBV=(sub,verb,op)和动宾关系VOB=(verb,obj,op),其中sub为主语,verb为谓语动词,obj为宾语,op为依存关系;将两组关系中含有相同谓语动词的主语、谓语动词、宾语组成事件三元组,作为语义角色标注结果为空时的补充。
本实施例中,所述S4中,领域关键词集为业务人员根据经验整理的信访目的识别领域相关词集;所述关键句提取过程为:根据领域关键词集,遍历句子集S提取含任一领域关键词的句子形成关键句集S′=(s1,s2,s3,…,sg),其中g为关键句个数;所述的综合特征为关键句集和事件三元组集中关键句与三元组,按照在信访件详情中出现的先后顺序进行拼接形成的文本,该文本即为待分类信访件详情的主体信息。
本实施例中,所述S5中,基于综合特征进行信访目的多分类,具体包括:将所述综合特征输入文本多分类模型,所述文本多分类模型是通过自学习模型训练得到。
所述的S1具体说明如下:
对待分类的信访件信访详情文本进行分句、分词和词性标注形成句子集、词集和词性集。其中,待分类的信访件信访详情文本如下表1所示;
表1待分类的信访件信访详情文本示例
对上述待分类的信访件信访详情按照预设的符号进行分句,得到句子集S=(s1,s2,s3,…,su),其中,u为信访件详情文本形成的句子数,预设的符号可根据实际业务设置,如句号、感叹号、问号等;
对分句后的句子集S进行分词和词性标注,得到词集W=(w1,w2,w3,…,wv)和词性集P=(p1,p2,p3,…,pv),其中,v为信访件详情文本形成的词个数且词性个数与词个数相等。
所述的S2具体说明如下:
通过命名实体识别与抽取以修正词集和词性集,本过程可描述为:
根据词集W和词性集P识别命名实体,获取命名实体元组集R=(r1,r2,r3,…,rh),其中h为命名实体元组个数,ri=(ind1i,ind2i,posi)为单个实体元组,i=1,2,3,...,h,ind1i为实体开始词索引,ind2i为实体结束词索引,posi为实体词性;
在实际应用中,所述的命名实体识别可采用HMM模型、CRF模型、BiLSTM-CR模型等,本说明书实施例中对具体的命名实体识别模型不做具体限定,可根据实际需求进行选择。
遍历命名实体元组集R中各实体元组ri,利用开始词索引至结束词索引,从词集W中抽取对应索引的词进行合并后替换原词以形成修正后的词集W′,从词性集P中删除对应索引的词性后替换成该实体词性形成修正后的词性集P′;
如图2所示,利用实体元组r1=(0,2,Ns)中的开始词索引0、结束词索引2和实体词性Ns,对词集W=(A市,B区,C村,村民,...)中索引为0至2的词进行合并得到词进行合并后替换得到修正后的词集W′=(A市B区C村,村民,...);对词性集P=(ns,ns,ns,n,…)中索引为0至2的词性替换成实体词性,并将实体词性转换成小写以便与原词性集统一,得到修正后的词性集P′=(ns,n,...)。
所述的S3具体说明如下:
由修正后的词集和词性集构建事件三元组,本过程可描述为:
通过语义角色标注对修正后的词集W′和词性集P′构建事件三元组集T=(t1,t2,t3,...,te),其中e为三元组个数,ti=(a1i,opi,a2i)为单个三元组,i=1,2,3,...,e,a1i为语义角色标注结果中的施事者即前项实体,a2i为语义角色标注结果中的受事者即后项实体,opi为语义角色标注结果中的角色即关系;
在实际应用中,所述的语义角色标注可按照预设的自学习模型得到标注结果,还可采用pyltp工具、nlpnet工具等进行语义角色标注。根据修正后的词集和词性集,采用所述方法构建的事件三元组集如下:
T=(('艾某已故子女五人','产生','矛盾'),
('村党支部书记廖某','参与','艾某家庭矛盾及子女之间遗产纠纷'),
('廖某','滥用','职权'),...)
若语义角色标注结果为空时,则通过依存句法分析构建事件三元组进行补充:进行依存句法分析得到主谓关系SBV=(sub,verb,op)和动宾关系VOB=(verb,obj,op),其中sub为主语,verb为谓语动词,obj为宾语,op为依存关系;将两组关系中含有相同谓语动词的主语、谓语动词、宾语组成事件三元组,作为语义角色标注结果为空时的补充。
在实际应用中,所述的依存句法分析可按照预设的自学习模型得到主谓关系和动宾关系结果,还可采用基于Arc-Eager转移系统的依存句法分析、基于神经网络的依存句法分析方法,本说明书实施例中对具体的依存句法分析模型不做具体限定,可根据实际需求进行选择。
所述的S4中具体说明如下:
根据领域关键词集提取关键句
领域关键词集为业务人员根据经验整理的信访目的识别领域相关词集,词集示例如下表2所示:
表2领域关键词集示例
根据领域关键词集,遍历句子集子集S提取含任一领域关键词的句子形成关键句集S′=(s1,s2,s3,...,sg),其中g为关键句个数;
结合关键句和事件三元组形成综合特征
综合特征为关键句集合事件三元组集中关键句与三元组,按照在信访件详情中出现的先后顺序进行拼接形成的文本,该文本即为待分类信访件信访详情的主体信息。综合特征示例如下表3所示:
表3根据事件三元组和关键句得到的综合特征示例
所述的S5中具体说明如下:
将所述综合特征输入文本多分类模型,所述文本多分类模型是通过自学习模型训练得到。
在实际应用中,所诉的文本多分类模型可采用TextCNN模型、TextRNN模型、BERT模型等识别待分类信访件的信访目的。本说明书实施例中对具体的命名实体识别模型不做具体限定,可根据实际需求进行选择,例如,当现有信访件数量足够自行训练分类模型时,可选择TextCNN模型等训练适应信访目的识别领域的文本多分类模型;当现有信访件数量较小或信访件详情内容丰富度较低时,可选择预训练的BERT模型,对现有的信访件详情文本进行迁移学习得到适应信访目的识别领域的文本多分类模型。
文本多分类模型预先设置多个分类类别,本说明书实施例中设置的信访目的类别包括:求决类、申诉类、批评建议类、检举揭发类、其他。对待分类信访件详情文本经过步骤1至步骤4处理后,得到的综合特征,输入预先已训练的文本多分类模型中,结合预设的信访目的类别,得到信访件对应的信访目的。基于同样的思路,本说明书实施例还提供了上述方法对应的装置。图3为一种基于事件三元组的信访件信访目的多分类装置的结构示意图。如图3所示,该装置包括:
信访件预处理模块:用于信访件详情的分句、分词和词性标注,形成句子集、词集和词性集。
信访件预处理模块具体包括:分句处理单元,用于将输入的待分类信访件详情文本按照预设的符号进行拆分,得到句子集,在实际应用中,预设的符号可根据业务设置为句号、问号、感叹号等;分词和词性标注单元,用于将分句后的句子集进行分词和词性标注,得到所述的词集和词性集。
命名实体修正模块,用于识别及提取信访件详情命名实体,并对词集和词性标注集进行修正。
事件三元组构建模块:用于对所述修正后的词集和词性集构建事件三元组。
事件三元组构建模块,具体包括:事件三元组初构建单元,用于对修正后的词集和词性集进行语义角色标注,提取事件三元组集;事件三元组补充单元,用于对初构建后为空的事件三元组进行补充,通过对修正后的词集和词性集进行依存句法分析,提取主谓关系和动宾关系组成事件三元组。
综合特征构建模块:用于提取关键句并与事件三元组结合成综合特征;
综合特征构建模块,具体包括:关键句提取单元,用于根据预设的领域关键词集对所述的句子集提取关键句集;特征融合单元,用于对关键句集合事件三元组集按照在输入的信访件详情中的顺序进行排序及拼接,形成待分类的综合特征。
信访目的多分类模块:用于基于所述综合特征,进行信访目的多分类;信访目的多分类模块是用于将综合特征输入预设的已训练的文本多分类模型中,结合预设的信访目的类别,得到信访件的信访目的分类结果。
综合以上分析,本发明提出的基于事件三元组的信访件信访目的多分类方法和装置,充分考虑了信访件详情多含描述事件原因、经过、自身现状等冗余信息,通过构建事件三元组并提取关键句形式,得到描述信访详情的主体信息,且为减少分词误差通过命名实体识别以修正分词结果,提高信访件信访目的多分类的准确性。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (2)
1.一种基于事件三元组的信访件信访目的多分类装置,其特征在于,包括:
信访件预处理模块:用于信访件详情的分句、分词和词性标注,形成句子集、词集和词性集;
命名实体修正模块:用于识别及提取信访件详情命名实体,并对词集和词性集进行修正;
事件三元组构建模块:用于对所述修正后的词集和词性集构建事件三元组;
综合特征构建模块:用于提取关键句并与事件三元组融合成综合特征;
信访目的多分类模块:用于基于所述综合特征,进行信访目的多分类;
所述信访件预处理模块,具体包括:分句处理单元:用于将输入的信访件详情文本按照预设的符号进行拆分,得到所述句子集;分词和词性标注处理单元:用于将分句后的句子集进行分词和词性标注,得到所述的词集和词性集;
所述事件三元组构建模块,具体包括:
事件三元组初构建单元:用于对修正后的词集和词性集进行语义角色标注,提取事件三元组集;
事件三元组补充单元:用于对初构建后为空的事件三元组进行补充,通过对修正后的词集和词性集进行依存句法分析,提取主谓关系和动宾关系组成事件三元组;
所述综合特征构建模块,具体包括:
关键句提取单元:用于根据预设的领域关键词集对所述的句子集提取关键句集;
特征融合单元:用于对关键句集和事件三元组集按照在信访件详情中的顺序进行排序及拼接,形成待分类的综合特征;
所述信访目的多分类模块是用于将综合特征输入预设的已训练的文本多分类模型中,结合预设的信访目的类别,得到信访件的信访目的分类结果。
2.根据权利要求1所述的一种基于事件三元组的信访件信访目的多分类装置的方法,其特征在于,包括以下步骤:
S1:将待分类的信访件详情文本进行分句、分词和词性标注形成句子集、词集和词性集;
S2:通过命名实体识别与抽取以修正词集和词性集;
S3:由修正后的词集和词性集构建事件三元组;
S4:根据领域关键词集提取关键句,融合关键句和事件三元组形成综合特征;
S5:基于综合特征进行信访件信访目的多分类;
所述S1中,待分类信访件详情文本进行分句、分词和词性标注形成句子集S=(s1,s2,s3,...,su)、词集W=(w1,w2,w3,...,wv)和词性集P=(p1,p2,p3,...,pv),其中u为信访件详情文本形成的句子数,v为信访件详情文本形成的词个数且词性个数与词个数相等;
所述S2中,通过命名实体识别与抽取以修正词集和词性集,具体包括:
A1:根据词集W和词性集P识别命名实体,获取命名实体元组集R=(r1,r2,r3,...,rh),其中h为命名实体元组个数,ri=(ind1i,ind2i,posi)为单个实体元组,i=1,2,3,...,h,ind1i为实体开始词索引,ind2i为实体结束词索引,posi为实体词性;
A2:遍历命名实体元组集R中各实体元组ri,利用开始词索引至结束词索引,从词集W中抽取对应索引的词进行合并后替换原词以形成修正后的词集W′,从词性集P中删除对应索引的词性后替换成该实体词性形成修正后的词性集P′;
所述S3中,由修正后的词集和词性集构建三元组,具体包括:
A1:通过语义角色标注对修正后的词集W′和词性集P′构建事件三元组集T=(t1,t2,t3,...,te),其中e为三元组个数,ti=(a1i,opi,a2i)为单个三元组,i=1,2,3,...,e,a1i为语义角色标注结果中的施事者即前项实体,a2i为语义角色标注结果中的受事者即后项实体,opi为语义角色标注结果中的角色即关系;
A2:若语义角色标注结果为空时,则通过依存句法分析构建事件三元组进行补充:进行依存句法分析得到主谓关系SBV=(sub,verb,op)和动宾关系VOB=(verb,obj,op),其中sub为主语,verb为谓语动词,obj为宾语,op为依存关系;将两组关系中含有相同谓语动词的主语、谓语动词、宾语组成事件三元组,作为语义角色标注结果为空时的补充;
所述S4中,领域关键词集为业务人员根据经验整理的信访目的识别领域相关词集;所述关键句提取过程为:根据领域关键词集,遍历句子集S提取含任一领域关键词的句子形成关键句集S′=(s1,s2,s3,...,sg),其中g为关键句个数;所述的综合特征为关键句集和事件三元组集中关键句与三元组,按照在信访件详情中出现的先后顺序进行拼接形成的文本,该文本即为待分类信访件详情的主体信息;
所述S5中,基于综合特征进行信访目的多分类,具体包括:将所述综合特征输入文本多分类模型,所述文本多分类模型是通过自学习模型训练得到。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011455907.9A CN112380868B (zh) | 2020-12-10 | 2020-12-10 | 一种基于事件三元组的信访目的多分类装置及其方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011455907.9A CN112380868B (zh) | 2020-12-10 | 2020-12-10 | 一种基于事件三元组的信访目的多分类装置及其方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112380868A CN112380868A (zh) | 2021-02-19 |
CN112380868B true CN112380868B (zh) | 2024-02-13 |
Family
ID=74590656
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011455907.9A Active CN112380868B (zh) | 2020-12-10 | 2020-12-10 | 一种基于事件三元组的信访目的多分类装置及其方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112380868B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112699665B (zh) * | 2021-03-25 | 2021-08-27 | 北京智源人工智能研究院 | 一种安全报告文本的三元组抽取方法、装置及电子设备 |
CN113569050B (zh) * | 2021-09-24 | 2021-12-07 | 湖南大学 | 基于深度学习的政务领域知识图谱自动化构建方法和装置 |
CN114048736A (zh) * | 2021-10-21 | 2022-02-15 | 盐城金堤科技有限公司 | 执行主体的提取方法、装置、存储介质和电子设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105389354A (zh) * | 2015-11-02 | 2016-03-09 | 东南大学 | 面向社交媒体文本的无监督的事件抽取和分类方法 |
CN107180023A (zh) * | 2016-03-11 | 2017-09-19 | 科大讯飞股份有限公司 | 一种文本分类方法及系统 |
CN109241538A (zh) * | 2018-09-26 | 2019-01-18 | 上海德拓信息技术股份有限公司 | 基于关键词和动词依存的中文实体关系抽取方法 |
CN109960756A (zh) * | 2019-03-19 | 2019-07-02 | 国家计算机网络与信息安全管理中心 | 新闻事件信息归纳方法 |
CN109977206A (zh) * | 2019-03-20 | 2019-07-05 | 西北大学 | 一种基于多特征因素相融合的短文本特征提取方法 |
CN110597999A (zh) * | 2019-08-01 | 2019-12-20 | 湖北工业大学 | 一种依存句法分析关系抽取模型的司法案件知识图谱构建方法 |
CN111178079A (zh) * | 2019-12-31 | 2020-05-19 | 北京明略软件系统有限公司 | 一种三元组抽取方法及装置 |
CN111209737A (zh) * | 2019-12-30 | 2020-05-29 | 厦门市美亚柏科信息股份有限公司 | 噪声文档的筛除方法及计算机可读存储介质 |
CN111611399A (zh) * | 2020-04-15 | 2020-09-01 | 广发证券股份有限公司 | 一种基于自然语言处理的资讯事件图谱化系统及方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120254333A1 (en) * | 2010-01-07 | 2012-10-04 | Rajarathnam Chandramouli | Automated detection of deception in short and multilingual electronic messages |
-
2020
- 2020-12-10 CN CN202011455907.9A patent/CN112380868B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105389354A (zh) * | 2015-11-02 | 2016-03-09 | 东南大学 | 面向社交媒体文本的无监督的事件抽取和分类方法 |
CN107180023A (zh) * | 2016-03-11 | 2017-09-19 | 科大讯飞股份有限公司 | 一种文本分类方法及系统 |
CN109241538A (zh) * | 2018-09-26 | 2019-01-18 | 上海德拓信息技术股份有限公司 | 基于关键词和动词依存的中文实体关系抽取方法 |
CN109960756A (zh) * | 2019-03-19 | 2019-07-02 | 国家计算机网络与信息安全管理中心 | 新闻事件信息归纳方法 |
CN109977206A (zh) * | 2019-03-20 | 2019-07-05 | 西北大学 | 一种基于多特征因素相融合的短文本特征提取方法 |
CN110597999A (zh) * | 2019-08-01 | 2019-12-20 | 湖北工业大学 | 一种依存句法分析关系抽取模型的司法案件知识图谱构建方法 |
CN111209737A (zh) * | 2019-12-30 | 2020-05-29 | 厦门市美亚柏科信息股份有限公司 | 噪声文档的筛除方法及计算机可读存储介质 |
CN111178079A (zh) * | 2019-12-31 | 2020-05-19 | 北京明略软件系统有限公司 | 一种三元组抽取方法及装置 |
CN111611399A (zh) * | 2020-04-15 | 2020-09-01 | 广发证券股份有限公司 | 一种基于自然语言处理的资讯事件图谱化系统及方法 |
Non-Patent Citations (5)
Title |
---|
Consistent Word Segmentation, Part-of-Speech Tagging and Dependency Labelling Annotation for Chinese Language;Mo Shen etc.;Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers;298-308 * |
一种面向微博的突发事件触发词识别方法研究;孙小川;吴警;尹浩然;芦天亮;;中国人民公安大学学报(自然科学版);20191115(第04期);38-44 * |
政府公共决策领域中网络民意建模方法研究;邓莎莎;张朋柱;李欣苗;;现代图书情报技术;20120925(第09期);69-74 * |
王志国 ; .网络舆情监控过程中微博文本分类处理的实现方法.图书情报导刊.2016,(第12期),129-133. * |
网络舆情监控过程中微博文本分类处理的实现方法;王志国;;图书情报导刊(第12期);129-133 * |
Also Published As
Publication number | Publication date |
---|---|
CN112380868A (zh) | 2021-02-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110147436B (zh) | 一种基于教育知识图谱与文本的混合自动问答方法 | |
CN112380868B (zh) | 一种基于事件三元组的信访目的多分类装置及其方法 | |
CN108363743B (zh) | 一种智能问题生成方法、装置和计算机可读存储介质 | |
CN109446331B (zh) | 一种文本情绪分类模型建立方法及文本情绪分类方法 | |
CN107451126B (zh) | 一种近义词筛选方法及系统 | |
US20130159277A1 (en) | Target based indexing of micro-blog content | |
CN110807328A (zh) | 面向法律文书多策略融合的命名实体识别方法及系统 | |
WO2015027315A1 (en) | System and method for identifying and scoring leads from social media | |
US20200210442A1 (en) | Identifying and extracting addresses within content | |
Althagafi et al. | Arabic tweets sentiment analysis about online learning during COVID-19 in Saudi Arabia | |
CN104462064A (zh) | 一种移动终端信息通讯提示输入内容的方法和系统 | |
CN109033478B (zh) | 一种用于搜索引擎的文本信息规律分析方法与系统 | |
Mangal et al. | Analysis of users’ interest based on tweets | |
CN113886604A (zh) | 一种职位知识图谱生成方法和系统 | |
CN111444704B (zh) | 基于深度神经网络的网络安全关键词抽取方法 | |
Klaithin et al. | Traffic information extraction and classification from Thai Twitter | |
Ogawa et al. | News bias analysis based on stakeholder mining | |
Winarko et al. | Recognizing the sarcastic statement on WhatsApp Group with Indonesian language text | |
Nugraha et al. | Typographic-based data augmentation to improve a question retrieval in short dialogue system | |
CN115114419A (zh) | 问答处理方法、装置、电子设备和计算机可读介质 | |
CN111523328A (zh) | 一种智能客服语义处理方法 | |
WO2015044934A1 (en) | A method for adaptively classifying sentiment of document snippets | |
US20160364391A1 (en) | Demographic-based learning in a question answering system | |
TWI734085B (zh) | 使用意圖偵測集成學習之對話系統及其方法 | |
Kundale et al. | Language independent multi-class sentiment analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |