CN113505200B - 一种结合文档关键信息的句子级中文事件检测的方法 - Google Patents
一种结合文档关键信息的句子级中文事件检测的方法 Download PDFInfo
- Publication number
- CN113505200B CN113505200B CN202110801337.2A CN202110801337A CN113505200B CN 113505200 B CN113505200 B CN 113505200B CN 202110801337 A CN202110801337 A CN 202110801337A CN 113505200 B CN113505200 B CN 113505200B
- Authority
- CN
- China
- Prior art keywords
- sentence
- vector
- document
- model
- sentences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 24
- 239000013598 vector Substances 0.000 claims abstract description 133
- 238000012549 training Methods 0.000 claims abstract description 46
- 238000002372 labelling Methods 0.000 claims abstract description 31
- 238000000034 method Methods 0.000 claims abstract description 31
- 230000011218 segmentation Effects 0.000 claims description 16
- 238000012360 testing method Methods 0.000 claims description 6
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 abstract description 11
- 238000003058 natural language processing Methods 0.000 abstract description 4
- 238000003062 neural network model Methods 0.000 abstract description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 101100261000 Caenorhabditis elegans top-3 gene Proteins 0.000 description 2
- 210000004027 cell Anatomy 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 101100153586 Caenorhabditis elegans top-1 gene Proteins 0.000 description 1
- 101100537629 Caenorhabditis elegans top-2 gene Proteins 0.000 description 1
- 101100370075 Mus musculus Top1 gene Proteins 0.000 description 1
- 101150107801 Top2a gene Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000001119 stannous chloride Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种结合文档关键信息的句子级中文事件检测的方法,属于自然语言处理中文本信息抽取技术领域,包括:对数据进行BIO序列标注;获取句子所在文档中关键句子;获取文档关键句子向量表示和待检测的句子中字符向量表示;将待检测句子中字符向量表示和文档关键句子向量结合;建立事件触发词抽取模型。首先,使用BIO标注方法对中文句子中每个字符进行标注。其次,使用TextRank算法获取文档中关键句子。然后,使用BERT中文预训练模型对关键句产生文档向量表示,以及对句子中每个字符产生向量表示。最后,使用神经网络模型对句子中触发词进行抽取。本发明通过结合文档中关键信息来获取文档主题,弥补句子内信息缺乏,以此提高对触发词识别准确率。
Description
技术领域
本发明属于自然语言处理中文本信息抽取技术领域,具体涉及一种结合文档关键信息的句子级中文事件检测的方法。
背景技术
事件抽取任务是从非结构化的自然语言文本中自动抽取用户感兴趣的事件信息并以结构化的形式表示。事件抽取是自然语言处理重要的研究任务之一,事件抽取技术的发展推动自然语言处理向前发展。在实际应用方面,事件抽取在自动问答、文本摘要、知识图谱等领域都有着广泛的应用。
ACE会议将事件抽取任务分为两个任务:1)事件检测,也称事件触发词抽取,即从文本信息中找到触发事件的词语并将其分类为特定事件类型;2)事件元素抽取,即根据检测出的事件,从文本中找出事件相应的事件元素并判断事件元素角色。
在事件检测中,主要问题是由于存在中文的一词多意,从而造成无法识别事件类型。例如,句子“小明离开公司。”这个简单句中含有“公司”这一实体词,但无法确定“离开”触发的是离职事件还是移动事件。因为“离开”一词表示从公司离职和离开公司前往其它地方在现实中都存在。但是如果该句子所在的文档中主要在讲述和离职相关事件,那么通过获取文档关键信息加入到句子向量中,将会帮助“离开”识别为离职事件;若文档中主要讲述和运输相关事件,那么“离开”则大概率表示移动事件。
因此,对于触发词一词多义以及句子内部无法提供有用的信息问题,目前单从句子中获取信息的方法无法正确去提取和识别触发词。因此,结合句子所在的文档信息进行事件检测,将可以提高事件检测的准确度。
发明内容
发明目的:本发明的目的在于提供一种结合文档关键信息的句子级中文事件检测的方法,弥补句子内信息缺乏,以此提高对触发词识别准确率。
技术方案:为了实现上述目的,本发明是通过如下的技术方案来实现:
一种结合文档关键信息的句子级中文事件检测的方法,包括如下步骤:
1)使用BIO标注方法对中文句子中每个字符进行标注;
2)使用TextRank算法获取文档中关键句子;
3)利用BERT中文预训练模型获取待检测句子和所在文档的向量表示;拼接句子向量和文档向量生成检测模型输入向量;利用模型实例进行预测得到句子中的事件触发词类型。
进一步地,所述的步骤1)中,具体包括如下步骤:
1.1)对语料集以文档为单位进行分词断句预处理;将每篇文档的内容以句号、感叹号、问号三个标点符号为分割符进行句子切分;
1.2)使用BIO标注方法对分割后的句子的触发词进行标注;BIO标注方法用B-X、I-X或O这三种方式对每个中文字进行标注;其中,B-X表示当前字符是触发词的开始,X表示当前触发词类型;I-X表示当前字符是触发词的中间或结尾;O表示当前不属于任何类型。
进一步地,所述的步骤2)中,具体包括如下步骤:
对文档中所有的句子的权重进行标准化并排序,选择权重和超过指定阈值r的句子作为文档的关键句;设一个文档有n个句子,TextRank计算得到的每个句子权重为{k1’,k2,…,kn},对权重进行标准化,得到第i个句子的标准化权重为:
对wi进行排序,权重和大于r,r是常量值;前k个句子作为文档的关键句;把文档的k个关键句按照它们在文档中出现的顺序连接成一个句子,构成文档的关键信息句。
进一步地,所述的步骤3)中,BERT输入由词向量、分割向量和位置向量相加总和组成;其中,词向量是BERT模型通过查询字向量表将文本中每个字转化为一维字向量;分割向量表示字所属的句子,通过不同的标记进行标注,BERT模型对不同位置的字/词分别附加一个不同的向量以作区分,具体包括如下步骤:
3.1)句子的字符向量表示;利用BERT中文预训练模型获取句子中每个字符的向量表示;每个句子由若干个字符组成,表示为:
S={c1,c2,...,ci,....,cn} (1)
其中ci表示第i个字符,n表示一句话由n个字符组成;BERT中文预训练模型需要在每句话开头加入[CLS],句子末尾加入[SEP];最终得到BERT中文预训练模型的输入序列:
S={[CLS],c1,c2,...,ci,....,cn,[SEP]} (2)
BERT中文预训练模型的输出为每个字符的编码,每个字符的编码长度为m维度,即句子中字符的向量表示为m维的向量;对一个输入句子,模型输出为(n+2)*m的向量,如下所示:
其中,E[CLS],E[SEP]为BERT模型输出的符号CLS和SEP的向量表示;
3.2)文档关键信息句向量表示;文档关键信息句向量是一个m维的向量,该向量通过关键信息句所包含的字符的向量进行加权处理得到;使用全局加权操作获取文档关键信息句向量,即对句子中包含的所有字符的根据其权重进行计算获得最终的向量;假设公式(3)中E为文档关键信息句中每个字符的向量表示构成的向量;去除E[CLS]和E[SEP]剩下n*m维向量;假设Ei对应的字符ci属于文档前k个关键句中的sj,且关键句sj的标准权重为wj,则E中字符ci的权重为wj,记为wci,Ei的权重也为wci;则关键信息句的向量Ekey为:
3.3)构建模型训练数据集;
模型的输入包含p个节点,每个结点对应待检测句子中的一个字符,即待检测的句子最多p个字符;每个结点的是一个2*m维的向量,由两部分组成:m维的文档关键信息向量和对应字符的m维的向量表示;对如公式(1)的待检测句子,其字符向量表示如公式(3),假设所在文档的关键信息句向量为Ekey,则拼接形成的模型输入为:
((Ekey,E1),(Ekey,E2),…,(Ekey,Ep)) (4)
第i个节点的输入向量为(Ekey,Ei);如果待检测的句子超过p个字符,则截掉尾端保留p个字符,如果待检测的句子不足p个字符,则每个位置采用E为m维的0向量描述;
模型输出为句子的标注,即在步骤1.2)中标注的结果;对不足p个字符时,步长的位置采用O标注,即不属于任何类型;
3.4)构建并训练BiLSTM-CRF模型,获得带模型参数的模型实例。
进一步地,所述的步骤3.4)中,构建并训练BiLSTM-CRF模型,获得带模型参数的模型实例,包括如下两个步骤:
3.41)模型结构为BiLSTM-CRF;
BiLSTM-CRF模型采用步骤3.3)描述拼接向量作为输入,以句子整体标注正确的概率为作为输出;BiLSTM-CRF是在双向LSTM后加上CRF层,将事件触发词分类问题转变成序列标注问题;模型主要分为输入层、编码层、CRF输出层;
BiLSTM的输入包含p个节点,每个结点为2*m维的向量,即模型的输入为p*2*m的二维向量;LSTM神经元数为c个,因此,BiLSTM输出为p*c二维向量;在BiLSTM输出层后存在一个Sotfmax层,计算每个字符属于各标签的概率;
3.42)模型训练
将步骤3.3)生成的训练数据集按照比例划分成训练集和测试集,对模型进行训练,得到带模型参数的模型实例。
有益效果:与现有技术相比,本发明使用BIO标注方法对中文句子中每个字符进行标注。其次,使用TextRank算法获取文档中关键句子。然后,使用BERT中文预训练模型对关键句产生文档向量表示,以及对句子中每个字符产生向量表示。最后,使用神经网络模型对句子中触发词进行抽取。本发明通过结合文档中关键信息来获取文档主题,弥补句子内信息缺乏,以此提高对触发词识别准确率。
附图说明
图1为本发明一种结合文档关键信息的句子级中文事件检测的方法的流程图;
图2为中文句子BIO标注结果图;
图3为BiLSTM-CRF模型图;
图4为AKBBiLSTM-CRF模型和NBBiLSTM-CRF模型训练过程中准确率折线图。
具体实施例方式
下面结合附图和具体实施方式来详细说明本发明:为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
下面结合如图1所示的流程图,以ACE2005中文语料为例,介绍一种结合文档关键信息的句子级中文事件检测的方法,说明本方法的具体实施方法。本文虽然以ACE2005语料集作为训练和测试集,但是基于与本发明同样的思想,使用其他语料集进行训练得到的模型,也视为在本申请所附权利要求所限定范围
1.ACE2005中文语料,其中共包含633篇中文文档,为了使实验公平,本文随机选取569篇文档作为训练集,选取64篇文档作为测试集。对ACE2005中文文档按照“。!?”进行切分,得到一个个句子。得到7461个句子,其中事件句2214个,非事件句5247个。为了减少非事件句子影响,在数据预处理过程中随机舍弃部分非事件句子,保留了和事件句子同等数目。
1.方法的总体流程包括建模和事件检测两个部分。建模部分包括:以ACE2005作为训练语料集,以文档为单位进行分词断句预处理;使用BIO标注方法对预处理后的训练语料集进行标注;采用TextRank算法得到语料中每篇的关键信息;利用BERT中文预训练模型获得测试样本句子和样本句子所在文档关键信息的向量表示;构建并训练BiLSTM-CRF模型,获得带模型参数的模型实例。事件检测部分包括:利用BERT中文预训练模型获取待检测句子和所在文档的向量表示;拼接句子向量和文档向量生成检测模型输入向量;利用模型实例进行预测得到句子中的事件触发词类型。
2.建模部分的技术路线如下:
2.1对ACE2005语料集以文档为单位进行分词断句预处理。将每篇文档的内容以句号(。)、感叹号(!)、问号(?)三个标点符号为分割符进行句子切分。
2.2使用BIO标注方法对分割后的句子的触发词进行标注。BIO标注方法用“B-X”、“I-X”或“O”这三种方式对每个中文字进行标注。其中,“B-X”表示当前字符是触发词的开始,X表示当前触发词类型(即事件类型)。“I-X”表示当前字符是触发词的中间或结尾。“O”表示当前不属于任何类型。ACE2005中有33中事件类型,即,触发词有33种类型。
2.3采用TextRank算法得到文档的关键信息。TextRank算法是一种基于图的用于抽取关键词和关键句子的排序算法。其输入是一篇文档,输出是每个句子的权重。TextRank算法将一篇文档转化为连通无向图,文档中的每个句子作为连通无向图中一个节点,根据两个句子之间的是否有重合词进行连接。通过迭代不断调整节点权重直到收敛,最终根据节点的权重值判断句子的重要程度,权重值越大,句子越重要。本发明对文档中所有的句子的权重进行标准化并排序,选择权重和超过指定阈值r的句子作为文档的关键句。
设一个文档有n个句子,TextRank计算得到的每个句子权重为{k1’,k2,…,kn},对权重进行标准化,得到第i个句子的标准化权重为:
对wi进行排序,权重和大于r,r是常量值;前k个句子作为文档的关键句;把文档的k个关键句按照它们在文档中出现的顺序连接成一个句子,构成文档的关键信息句。
2.4利用BERT中文预训练模型获得句子的字符向量表示和文档关键信息句向量表示。
BERT中文预训练模型是在大规模中文语料上根据多层Transformer编码获取上下文信息,从而实现对不同语境相同的词进行不同向量表示。
BERT输入由词向量、分割向量和位置向量相加总和组成。其中,词向量是BERT模型通过查询字向量表将文本中每个字转化为一维字向量;分割向量表示字所属的句子,通过不同的标记进行标注,例如,输入两句话,表示为“[CLS]文本1[SEP]文本2[SEP]”那么文本1中所有字用“0”表示,文本2中所有字用“1”表示。位置向量:由于出现在文本不同位置的字/词所携带的语义信息存在差异(比如:“我打你”和“你打我”),因此,BERT模型对不同位置的字/词分别附加一个不同的向量以作区分。
2.4.1句子的字符向量表示。利用BERT中文预训练模型获取句子中每个字符的向量表示。每个句子由若干个字符组成,表示为:
S={c1,c2,...,ci,....,cn} (1)
其中ci表示第i个字符,n表示一句话由n个字符组成。BERT中文预训练模型需要在每句话开头加入[CLS],句子末尾加入[SEP]。最终得到BERT中文预训练模型的输入序列:
S={[CLS],c1,c2,...,ci,....,cn,[SEP]} (2)
BERT中文预训练模型的输出为每个字符的编码,每个字符的编码长度为768维度,即句子中字符的向量表示为768维的向量。因此对一个输入句子,模型输出为(n+2)*768的向量。如下所示:
2.4.2文档关键信息句向量表示。文档关键信息句向量是一个768维的向量,该向量通过关键信息句所包含的字符的向量进行加权处理得到。使用全局加权操作获取文档关键信息句向量,即对句子中包含的所有字符的根据其权重进行计算获得最终的向量。假设公式(3)中E为文档关键信息句的每个字符的向量表示。去除E[CLS]和E[SEP]剩下n*768维向量。假设Ei对应的字符ci属于文档前k个关键句中的sj,且关键句sj的标准权重为wj,则E中字符ci的权重为wj,记为wci。则关键信息句的向量Ekey为:
2.5构建模型训练数据集。
模型的输入包含512个节点,每个结点对应待检测句子中的一个字符,即待检测的句子最多512个字符。每个结点的是一个1536维的向量,由两部分组成:768维的文档关键信息向量和对应字符的768维的向量表示。对如公式(1)的待检测句子,其字符向量表示如公式(3),假设所在文档的关键信息句向量为Ekey,则拼接形成的模型输入为:
((Ekey,E1),(Ekey,E2),…,(Ekey,E512))
第i个节点的输入向量为(Ekey,Ei)。如果待检测的句子超过512个字符,则截掉尾端保留512个字符,如果待检测的句子不足512个字符,则每个位置采用E为768维的0向量描述。
模型输出为句子的标注,即在2.2中标注的结果。对不足512个字符时,步长的位置采用O标注,即不属于任何类型。
2.6构建并训练BiLSTM-CRF模型,获得带模型参数的模型实例。包括如下两个步骤:
2.6.1BiLSTM-CRF模型结构。
BiLSTM-CRF模型采用2.5.1描述拼接向量作为输入,以句子整体标注正确的概率为作为输出。BiLSTM-CRF是在双向LSTM后加上CRF层,将事件触发词分类问题转变成序列标注问题。模型主要分为输入层、编码层、CRF输出层。
其逻辑结构如下:
如图3所示,模型包括BiLSTM和CRF两个部分,BiLSTM由正向LSTM和反向LSTM组合而成。LSTM网络通过加入遗忘门、输入门和输出门保存句子中重要信息和遗弃非重要信息,根据当前输入信息和上一个时刻的输出信息计算出当前的记忆,再根据当前的信息和上一时刻的输出信息计算输入门的大小,最后,根据当前记忆和输入门决定存储多少信息到细胞状态中。最后,输出门决定多少信息到下一个细胞。正向LSTM可以获取句子正向信息,而反向LSTM可以获取句子反向信息,当正向LSTM和反向LSTM获取进行拼接,即可获取当前输入上下文信息。BiLSTM的输入包含512个节点,每个结点为(768+768)维的向量,即模型的输入为512*1536的二维向量。LSTM神经元数为200个,因此,BiLSTM输出为512*200二维向量。在BiLSTM输出层后存在一个Sotfmax层,计算每个字符属于各标签的概率。
CRF为条件随机场,是给定一组输入序列条件下另一组输出序列的条件概率分布模型。CRF为句子中的每个字符预测一个标注标签,预测的标签为该字符的事件类型,例如:“B-Attack”表示该字符为Attack(攻击)类型事件词的开头,“I-Attack”表示为Attack(攻击)类型事件词的中间或结束,“O”表示该字符不属于触发词。对本发明中的一个输入节点,对应句子中的一个字符,CRF根据Ekey,判断E1的标注类型。CRF最终计算出待检测句多个可能合理的序列预测结果,并对所有的结果给出概率分布从中选取概率最高的预测结果作为最优预测结果。
2.6.2模型训练
将2.6生成的训练数据集按照比例划分成训练集和测试集,对模型进行训练,得到带模型参数的模型实例。
3.触发词检测部分的技术路线如下:
给定一个句子以及句子所在的文档,利用训练的BiLSTM-CRF模型预测句子中每个字符的标注类型,并判断出包含的触发词以及类型。
3.1利用TextRank获取文档关键信息。采用2.3方法获取待检测文档的关键信息句。
3.2利用BERT中文预训练模型按照2.4.1和2.4.2获得文档关键信息句和待检测句子的字符向量表示。
3.3按照2.6对待检测句子和其所在文档的向量进行拼接,形成模型输入。输入到BiLSTM-CRF模型实例,产生输出,并选择概率最高的结果作为预测结果。预测概率最高的输出中对句子每个位置都产生一个标注。根据该标注确定的触发词的类型,实现事件检测。
实验验证
(1)实验思路
下面通过实验验证采用TextRank算法获取文本关键信息句的性能,以及基于BiLSTM-CRF模型事件检测性能。
(2)基于TextRank算法获取文本关键信息句验证。
实验方法:从ACE2005中文语料中随机选取50篇文本,人工对每一篇文本关键句进行选择,选择的标准是最能表达文本主题的一句话作为关键句。使用TextRank算法对每篇文本中句子进行打分,通过每个句子得分,根据得分从高到低排序。本文通过选择不同数量的得分高的句子作为关键句(Top-n),例如Top-1表示选择得分最高的句子,Top-2表示得分最高的前两个句子,以此类推。并评价选择的句子中包含人为定义主题句的准确率。评价标准是选择的句子中若包含人为定义的主题句,则为正例,若不包含,则为反例。
表1 TextRank算法选择不同得分句子命中关键句个数表
表2 AKBBiLSTM-CRF和NBBiLSTM-CRF模型触发词分类结果对比表
结果及分析:观察表1,表示选择不同得分高的句子命中主题句的数量,从表中可以看出在Top-3之前,随着选择关键句数量扩大,命中数量增幅明显,在Top-3之后,命中数量区别不大。为了不引入过多的句子,导致引入噪声,本文选择得分最高的前三个句子作为关键句。
(3)基于BiLSTM-CRF模型事件检测性能。
实验方法:为验证本发明方法在实际应用中的性能,在相同实验参数、相同BERT预训练模型和事件检测模型下,分别使用不结合文本关键信息神经网络模型(NBBiLSTM-CRF)和本文发明提出的结合文档关键信息的神经网络模型(AKBBiLSTM-CRF)进行对比实验。
结果及分析:观察表2,AKBBiLSTM-CRF模型在触发词分类上准确率、召回率和F1值上都比NBBiLSTM-CRF模型要高,其中F1值高出近2%,这也说明了本发明提出方法在触发词抽取上具有一定的效果。观察图3,从训练过程中准确率对比,可以看出在30轮训练后,其中仅有3次(第9、16和22轮)AKBBiLSTM-CRF得到的准确率明显低于NBBiLSTM-CRF,大多情况结合文档关键信息句子级事件检测在触发词分类准确率上要高于不结合文本关键信息,根据以上对比,说明本发明能够提高触发词抽取准确率。
Claims (2)
1.一种结合文档关键信息的句子级中文事件检测的方法,其特征在于,包括如下步骤:
1)使用BIO标注方法对中文句子中每个字符进行标注;
2)使用TextRank算法获取文档中关键句子;
3)利用BERT中文预训练模型获取待检测句子和所在文档的向量表示;拼接句子向量和文档向量生成检测模型输入向量;利用模型实例进行预测得到句子中的事件触发词类型;
所述的步骤1)中,具体包括如下步骤:
1.1)对语料集以文档为单位进行分词断句预处理;将每篇文档的内容以句号、感叹号、问号三个标点符号为分割符进行句子切分;
1.2)使用BIO标注方法对分割后的句子的触发词进行标注;BIO标注方法用B-X、I-X或O这三种方式对每个中文字进行标注;其中,B-X表示当前字符是触发词的开始,X表示当前触发词类型;I-X表示当前字符是触发词的中间或结尾;O表示当前不属于任何类型;
所述的步骤2)中,具体包括如下步骤:
对文档中所有的句子的权重进行标准化并排序,选择权重和超过指定阈值r的句子作为文档的关键句;设一个文档有n个句子,TextRank计算得到的每个句子权重为{k1’,k2,…,kn},对权重进行标准化,得到第i个句子的标准化权重为:
对wi进行排序,权重和大于r,r是常量值;前k个句子作为文档的关键句;把文档的k个关键句按照它们在文档中出现的顺序连接成一个句子,构成文档的关键信息句;
所述的步骤3)中,BERT输入由词向量、分割向量和位置向量相加总和组成;其中,词向量是BERT模型通过查询字向量表将文本中每个字转化为一维字向量;分割向量表示字所属的句子,通过不同的标记进行标注,BERT模型对不同位置的字/词分别附加一个不同的向量以作区分,具体包括如下步骤:
3.1)句子的字符向量表示;利用BERT中文预训练模型获取句子中每个字符的向量表示;每个句子由若干个字符组成,表示为:
S={c1,c2,...,ci,....,cn} (1)
其中ci表示第i个字符,n表示一句话由n个字符组成;BERT中文预训练模型需要在每句话开头加入[CLS],句子末尾加入[SEP];最终得到BERT中文预训练模型的输入序列:
S={[CLS],c1,c2,...,ci,....,cn,[SEP]} (2)
BERT中文预训练模型的输出为每个字符的编码,每个字符的编码长度为m维度,即句子中字符的向量表示为m维的向量;对一个输入句子,模型输出为(n+2)*m的向量,如下所示:
其中,E[CLS],E[SEP]为BERT模型输出的符号CLS和SEP的向量表示;
3.2)文档关键信息句向量表示;文档关键信息句向量是一个m维的向量,该向量通过关键信息句所包含的字符的向量进行加权处理得到;使用全局加权操作获取文档关键信息句向量,即对句子中包含的所有字符的根据其权重进行计算获得最终的向量;假设公式(3)中E为文档关键信息句中每个字符的向量表示构成的向量;去除E[CLS]和E[SEP]剩下n*m维向量;假设Ei 对应的字符ci属于文档前k个关键句中的sj,且关键句sj的标准权重为wj,则E中字符ci的权重为wj,记为wci,Ei的权重也为wci;则关键信息句的向量Ekey为:
3.3)构建模型训练数据集;
模型的输入包含p个节点,每个结点对应待检测句子中的一个字符,即待检测的句子最多p个字符;每个结点的是一个2*m维的向量,由两部分组成:m维的文档关键信息向量和对应字符的m维的向量表示;对如公式(1)的待检测句子,其字符向量表示如公式(3),假设所在文档的关键信息句向量为Ekey,则拼接形成的模型输入为:
((Ekey,E1),(Ekey,E2),…,(Ekey,Ep)) (4)
第i个节点的输入向量为(Ekey,Ei);如果待检测的句子超过p个字符,则截掉尾端保留p个字符,如果待检测的句子不足p个字符,则每个位置采用E为m维的0向量描述;
模型输出为句子的标注,即在步骤1.2)中标注的结果;对不足p个字符时,步长的位置采用O标注,即不属于任何类型;
3.4)构建并训练BiLSTM-CRF模型,获得带模型参数的模型实例。
2.根据权利要求1所述的一种结合文档关键信息的句子级中文事件检测的方法,其特征在于,所述的步骤3.4)中,构建并训练BiLSTM-CRF模型,获得带模型参数的模型实例,包括如下两个步骤:
3.41)模型结构为BiLSTM-CRF;
BiLSTM-CRF模型采用步骤3.3)描述拼接向量作为输入,以句子整体标注正确的概率为作为输出;BiLSTM-CRF是在双向LSTM后加上CRF层,将事件触发词分类问题转变成序列标注问题;模型主要分为输入层、编码层、CRF输出层;
BiLSTM的输入包含p个节点,每个结点为2*m维的向量,即模型的输入为p*2*m的二维向量;LSTM神经元数为c个,因此,BiLSTM输出为p*c二维向量;在BiLSTM输出层后存在一个Sotfmax层,计算每个字符属于各标签的概率;
3.42)模型训练
将步骤3.3)生成的训练数据集按照比例划分成训练集和测试集,对模型进行训练,得到带模型参数的模型实例。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110801337.2A CN113505200B (zh) | 2021-07-15 | 2021-07-15 | 一种结合文档关键信息的句子级中文事件检测的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110801337.2A CN113505200B (zh) | 2021-07-15 | 2021-07-15 | 一种结合文档关键信息的句子级中文事件检测的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113505200A CN113505200A (zh) | 2021-10-15 |
CN113505200B true CN113505200B (zh) | 2023-11-24 |
Family
ID=78013443
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110801337.2A Active CN113505200B (zh) | 2021-07-15 | 2021-07-15 | 一种结合文档关键信息的句子级中文事件检测的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113505200B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114186043B (zh) * | 2021-12-10 | 2022-10-21 | 北京三快在线科技有限公司 | 预训练方法、装置、设备和存储介质 |
CN114239566B (zh) * | 2021-12-14 | 2024-04-23 | 公安部第三研究所 | 基于信息增强实现两步中文事件精准检测的方法、装置、处理器及其计算机可读存储介质 |
CN114168738A (zh) * | 2021-12-16 | 2022-03-11 | 北京感易智能科技有限公司 | 篇章级事件抽取方法、系统和设备 |
CN114970554B (zh) * | 2022-08-02 | 2022-10-21 | 国网浙江省电力有限公司宁波供电公司 | 一种基于自然语言处理的文档校验方法 |
CN117236436A (zh) * | 2023-11-16 | 2023-12-15 | 江西师范大学 | 基于外部知识的跨句多层双向网络事件检测方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108829801A (zh) * | 2018-06-06 | 2018-11-16 | 大连理工大学 | 一种基于文档级别注意力机制的事件触发词抽取方法 |
CN109062895A (zh) * | 2018-07-23 | 2018-12-21 | 挖财网络技术有限公司 | 一种智能语义处理方法 |
WO2019095994A1 (zh) * | 2017-11-14 | 2019-05-23 | 腾讯科技(深圳)有限公司 | 一种摘要获取的方法、装置、设备及计算机可读存储介质 |
CN110135457A (zh) * | 2019-04-11 | 2019-08-16 | 中国科学院计算技术研究所 | 基于自编码器融合文档信息的事件触发词抽取方法及系统 |
CN111177365A (zh) * | 2019-12-20 | 2020-05-19 | 山东科技大学 | 一种基于图模型的无监督自动文摘提取方法 |
CN112632997A (zh) * | 2020-12-14 | 2021-04-09 | 河北工程大学 | 基于BERT和Word2Vec向量融合的中文实体识别方法 |
CN112966525A (zh) * | 2021-03-31 | 2021-06-15 | 上海大学 | 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法 |
-
2021
- 2021-07-15 CN CN202110801337.2A patent/CN113505200B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019095994A1 (zh) * | 2017-11-14 | 2019-05-23 | 腾讯科技(深圳)有限公司 | 一种摘要获取的方法、装置、设备及计算机可读存储介质 |
CN108829801A (zh) * | 2018-06-06 | 2018-11-16 | 大连理工大学 | 一种基于文档级别注意力机制的事件触发词抽取方法 |
CN109062895A (zh) * | 2018-07-23 | 2018-12-21 | 挖财网络技术有限公司 | 一种智能语义处理方法 |
CN110135457A (zh) * | 2019-04-11 | 2019-08-16 | 中国科学院计算技术研究所 | 基于自编码器融合文档信息的事件触发词抽取方法及系统 |
CN111177365A (zh) * | 2019-12-20 | 2020-05-19 | 山东科技大学 | 一种基于图模型的无监督自动文摘提取方法 |
CN112632997A (zh) * | 2020-12-14 | 2021-04-09 | 河北工程大学 | 基于BERT和Word2Vec向量融合的中文实体识别方法 |
CN112966525A (zh) * | 2021-03-31 | 2021-06-15 | 上海大学 | 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法 |
Non-Patent Citations (2)
Title |
---|
结合注意力机制与双向LSTM的中文事件检测方法;沈兰奔;《中文信息学报》;全文 * |
融合多级语义特征的双通道GAN事件检测方法;潘丽敏;《北京理工大学学报》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113505200A (zh) | 2021-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113505200B (zh) | 一种结合文档关键信息的句子级中文事件检测的方法 | |
CN108984526B (zh) | 一种基于深度学习的文档主题向量抽取方法 | |
CN109241255B (zh) | 一种基于深度学习的意图识别方法 | |
CN110245229B (zh) | 一种基于数据增强的深度学习主题情感分类方法 | |
WO2019153737A1 (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN109766544B (zh) | 基于lda和词向量的文档关键词抽取方法和装置 | |
CN107330011A (zh) | 多策略融合的命名实体的识别方法及装置 | |
CN110532554A (zh) | 一种中文摘要生成方法、系统及存储介质 | |
CN110362819B (zh) | 基于卷积神经网络的文本情感分析方法 | |
CN110222178A (zh) | 文本情感分类方法、装置、电子设备及可读存储介质 | |
CN110489750A (zh) | 基于双向lstm-crf的缅甸语分词及词性标注方法及装置 | |
CN111738007A (zh) | 一种基于序列生成对抗网络的中文命名实体识别数据增强算法 | |
CN112036168B (zh) | 事件主体识别模型优化方法、装置、设备及可读存储介质 | |
CN112434164B (zh) | 一种兼顾话题发现和情感分析的网络舆情分析方法及系统 | |
CN112069312B (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
CN108090099B (zh) | 一种文本处理方法及装置 | |
CN112131345B (zh) | 文本质量的识别方法、装置、设备及存储介质 | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
Suyanto | Synonyms-based augmentation to improve fake news detection using bidirectional LSTM | |
CN114756675A (zh) | 文本分类方法、相关设备及可读存储介质 | |
CN114428850A (zh) | 一种文本检索匹配方法和系统 | |
CN112417132A (zh) | 一种利用谓宾信息筛选负样本的新意图识别方法 | |
CN113486174B (zh) | 模型训练、阅读理解方法、装置、电子设备及存储介质 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN115905187B (zh) | 一种面向云计算工程技术人员认证的智能化命题系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |