CN115293156A - 监狱短信异常事件提取方法、装置、计算机设备及介质 - Google Patents
监狱短信异常事件提取方法、装置、计算机设备及介质 Download PDFInfo
- Publication number
- CN115293156A CN115293156A CN202211194925.5A CN202211194925A CN115293156A CN 115293156 A CN115293156 A CN 115293156A CN 202211194925 A CN202211194925 A CN 202211194925A CN 115293156 A CN115293156 A CN 115293156A
- Authority
- CN
- China
- Prior art keywords
- word
- speech
- abnormal event
- short
- word segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 93
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000011218 segmentation Effects 0.000 claims abstract description 65
- 238000000605 extraction Methods 0.000 claims abstract description 28
- 239000013598 vector Substances 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 238000002372 labelling Methods 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 4
- 238000007405 data analysis Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 5
- 230000009466 transformation Effects 0.000 description 4
- 241000234671 Ananas Species 0.000 description 3
- 235000007119 Ananas comosus Nutrition 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 241000196324 Embryophyta Species 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明的实施例提供了一种监狱短信异常事件提取方法、装置、计算机设备及介质,涉及数据分析领域。包括:基于样本数据生成异常事件词表;对待提取文本进行分词和词性标注,得到多个分词结果及其词性;将所述待提取文本划分为多个短句,判断多个所述短句中是否存在假设句;将多个所述短句中的假设句删除;基于所述异常事件词表对剩余短句进行词表匹配,得到多个匹配结果及其词性,若存在词性不符合词性限制的错误匹配结果,则删除错误匹配结果,输出异常事件提取结果。本申请实施例在标注数据较难获取的情况下,得到大量的召回词,形成覆盖广的异常事件词表,进而根据异常事件提取结果了解服刑人员的个人情况,实现对服刑人员的个性化帮扶及改造。
Description
技术领域
本发明涉及数据分析领域,具体而言,涉及一种监狱短信异常事件提取方法、装置、计算机设备及介质。
背景技术
在监狱场景下,服刑人员会与监狱外人员进行短信沟通,而沟通短信中会存在一些异常事件,如离婚、生病等。如果可以及时识别出这些异常事件,就可以根据服刑人员的个人情况对其进行个性化帮扶及改造。
目前来说,对于公开文本中的事件提取,主要存在两大类方法:命名体识别法和事件分类法。命名体识别法包括CRF模型、LSTM模型、BI-LSTM+CRF模型、FLATTEN模型等。事件分类法包括Fasttext模型、BERT模型等。而这些模型都需要大量的标注数据对其进行训练。但是在监狱这种特殊的环境下,标注数据极难获取,这就意味着很难对现有技术提供的模型进行训练,也就无法基于现有的模型对监狱内服刑人员的短信内容中的异常事件进行识别。
发明内容
为了解决上述技术问题,本申请实施例提供了一种监狱短信异常事件提取方法、装置、计算机设备及介质,其能够在无监督的情况下对监狱内服刑人员的短信内容中的异常事件进行提取。
第一方面,本申请实施例提供了一种监狱短信异常事件提取方法,所述方法包括:
基于样本数据生成异常事件词表;
对待提取文本进行分词和词性标注,得到多个分词结果及其词性;
将所述待提取文本划分为多个短句,基于所述分词结果判断多个所述短句中是否存在假设句;
若多个所述短句中存在假设句,则将多个所述短句中的假设句删除,得到剩余短句;
基于所述异常事件词表对所述剩余短句进行词表匹配,得到多个匹配结果及其词性,判断各所述匹配结果的词性是否符合词性限制;
若存在词性不符合词性限制的错误匹配结果,则从各所述匹配结果中删除所述错误匹配结果,输出异常事件提取结果。
在一实施方式中,所述基于样本数据生成异常事件词表的步骤包括:
基于所述样本数据生成种子词典;
对所述种子词典中的各种子词进行词性标注;
基于相似词召回模型获取各所述种子词对应的多个召回词;
对多个所述召回词进行筛选,判断各所述召回词是否符合预设类别,从多个所述召回词中删去不符合预设类别的召回词,得到所述异常事件词表。
在一实施方式中,所述方法还包括:
对各所述召回词进行词性标注,各所述召回词的词性与所述召回词对应的种子词的词性相同。
在一实施方式中,所述种子词典包括实体词与事件词。
在一实施方式中,所述相似词召回模型包括词向量模型和DSG模型,所述词向量模型基于历史短信文本训练得到,所述DSG模型基于互联网语料训练得到。
在一实施方式中,所述对待提取文本进行分词和词性标注的步骤,包括:
将所述待提取文本输入LAC分词工具;
通过所述LAC分词工具对所述待提取文本进行分词处理,得到多个所述分词结果;
对各所述分词结果进行词性标注;
输出各所述分词结果对应的分词结果词性。
在一实施方式中,所述基于所述分词结果判断多个所述短句中是否存在假设句的步骤,包括:
判断各所述短句对应的多个所述分词结果中是否包含假设语气词;
若所述短句对应的多个所述分词结果中存在至少一个所述假设语气词,则确定所述短句为假设句。
第二方面,本申请实施例提供了一种异常事件提取装置,所述异常事件提取装置包括:
生成模块,用于基于样本数据生成异常事件词表;
标注模块,用于对待提取文本进行分词和词性标注,得到多个分词结果及其词性;
判断模块,用于将所述待提取文本划分为多个短句,基于所述分词结果判断多个所述短句中是否存在假设句;
删除模块,用于若多个所述短句中存在假设句,则将多个所述短句中的假设句删除,得到剩余短句;
匹配模块,基于所述异常事件词表对所述剩余短句进行词表匹配,得到多个匹配结果及其词性,判断各所述匹配结果的词性是否符合词性限制;
输出模块,若存在词性不符合词性限制的错误匹配结果,则从各所述匹配结果中删除所述错误匹配结果,输出异常事件提取结果。
第三方面,本申请实施例提供了一种计算机设备,包括存储器以及处理器,所述存储器用于存储计算机程序,所述计算机程序在所述处理器运行时执行第一方面提供的监狱短信异常事件提取方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序在处理器上运行时执行第一方面提供的监狱短信异常事件提取方法。
上述本申请提供的监狱短信异常事件提取方法、装置、计算机设备及介质,可以在标注数据较难获取的情况下,通过词向量模型和DSG模型协同召回与种子词相似的召回词,得到较大数据量的召回词,形成覆盖面广的异常事件词表,并根据异常事件词表对监狱短信的待提取文本进行异常事件提取,这样,就可以根据异常事件提取结果了解到服刑人员的个人情况,实现对服刑人员的个性化帮扶及改造。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例提供的异常事件提取方法的一流程示意图;
图2示出了本申请实施例提供的一异常事件框架的实体词;
图3示出了本申请实施例提供的一异常事件框架的事件词;
图4示出了本申请实施例提供的异常事件提取方法的步骤S101的一流程示意图;
图5示出了本申请实施例提供的生成异常事件词表的一流程示意图;
图6示出了本申请实施例提供的一词向量模型;
图7示出了本申请实施例提供的异常事件提取装置的一结构示意图。
图标:700-监狱短信异常事件提取装置,710-生成模块,720-标注模块,730-判断模块,740-删除模块,750-匹配模块,760-输出模块。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明的描述中,需要说明的是,若出现术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,若出现术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
需要说明的是,在不冲突的情况下,本发明的实施例中的特征可以相互结合。
实施例1
本公开实施例提供了一种监狱短信异常事件提取方法。
具体的,请参见图1,图1示出了本申请实施例提供的监狱短信异常事件提取方法的一流程示意图,所述监狱短信异常事件提取方法包括:
步骤S101,基于样本数据生成异常事件词表;
在生成异常事件词表之前,需要根据监狱短信的历史异常事件,初步构造一个异常事件框架,作为后期生成种子词和筛选召回词的依据。在服刑人员的短信中,不仅包括事件,事件也存在执行的实体,所以在构造异常事件框架时,需要考虑到实体和事件两部分。具体地,请参见图2,图2示出了本申请实施例提供的一异常事件框架的实体词。还可以参见图3,图3示出了本申请实施例提供的一异常事件框架的事件词。
异常事件框架由实体和事件组成,实体可以划分成多个类别,包括但不限于:亲朋、未来、金钱等等。各类别还可以细分,如亲朋可以细分为儿女、父母、爱人、亲戚和朋友等;未来可以细分为减刑、申诉等;金钱可以细分为个人经济和家庭经济。此外,实体也可以根据实际情况包括其他类别的实体。事件可以分为各种细类事件,如不搭理、生病、死亡、离婚、家庭矛盾、抚养异常、经济纠纷、上当受骗等等。
请参见图4,图4示出了本申请实施例提供的监狱短信异常事件提取方法的步骤S101流程图。在一实施方式中,所述基于样本数据生成异常事件词表的步骤包括:
步骤S1011,基于所述样本数据生成种子词典;所述样本数据来自于历史数据,结合专家经验,形成了各大类实体和事件的种子词。种子词的标准是涵盖范围尽可能广,以便于在后续步骤召回相似词时可以全覆盖地召回可能用到的实体及事件词。
步骤S1012,对所述种子词典中的各种子词进行词性标注;在本公开实施例中,所有用到的词都需要标注词性,包括种子词与后文的召回词。
在一实施方式中,所述种子词典包括实体词与事件词。对应前文构造的异常事件框架中的实体与事件。
步骤S1013,基于相似词召回模型获取各所述种子词对应的多个召回词;
在一实施方式中,所述相似词召回模型包括词向量模型和DSG模型,所述词向量模型基于历史短信文本训练得到,所述DSG模型基于互联网语料训练得到。
所述词向量模型,为CBOW模型(Continuous Bag-of-Words,连续词袋模型)。请参见图5,首先按照图6所示的CBOW模型构建初始词向量模型,再基于历史短信文本对初始词向量模型进行训练,得到最终要使用的词向量模型。历史短信文本,即经过标注的监狱短信,可以作为训练初始词向量模型的标注数据。需要注意的是,历史短信文本的样本量较小,所以训练得到的词向量模型召回效果可能会不理想,召回词范围也比较小。因此,本实施方式又引入了基于海量互联网语料训练的DSG(Direction skip-gram)模型,所述DSG模型基于大量语料训练,召回效果较好,涵盖范围较广,训练语料可以来自任一互联网语料库,在此不做限定。
在本实施方式中,采用了两个模型协同进行相似词召回,词向量模型可以精准召回与短信文本相关的召回词,而DSG模型可以召回在互联网语料中出现过的召回词,二者起到了一个互补的作用。这样,在保证了符合监狱短信文本提取的应用场景前提下,极大地扩充了召回词的数据量。最后召回的实体词和事件词,共同组成了异常事件词表。
具体的词向量模型结构参见图6,所述词向量模型包括深度为V的输入层、深度为N的隐藏层h i 、深度为V的输出层y j ;此外,输入层还包括C个输入窗口x 1k ,x 2k 到x Ck 。图中的V-dim、N-dim和V-dim分别代表输入层、隐藏层和输出层的深度为V、N、V。C×V-dim代表C个输入窗口,每个输入窗口深度为V。词向量模型利用上下文或周围的单词来预测中心词,其输入为某一个特征词的上下文相关对应的词向量,输出为该特征词的词向量。例如,给定一个句子“菠萝是带刺的和黄色的”,若中心词为“带刺的”,上下文为“菠萝、是、和、黄色的”,则其他“带刺的”植物的向量也会靠近“菠萝”。
步骤S1014,对多个所述召回词进行筛选,判断各所述召回词是否符合预设类别,从多个所述召回词中删去不符合预设类别的召回词,得到所述异常事件词表。
在生成种子词典时,也同步生成了种子词的类别、词性。但是相似词召回模型基于种子词召回的召回词则不一定符合种子词的类别,因此需要对召回词进行筛选,若召回词的类别与种子词不同,则删去该召回词,避免发生错误。具体地,请参见上文的异常事件框架。例如,种子词“女儿”属于“儿女”的细分类别,若种子词召回的召回词为“儿子”,也属于“儿女”的细分类别,则证明召回正确;若种子词召回的召回词为“阿姨”,显然,“阿姨”不属于“儿女”的细分类别,则可以判断为召回错误,删去召回词“阿姨”。
在一实施方式中,所述方法还包括:对各所述召回词进行词性标注,各所述召回词的词性与所述召回词对应的种子词的词性相同。例如,种子词“女儿”的词性为名词,那么种子词召回的召回词“儿子”的词性,也会被标注为名词。
异常事件词表包括实体词和事件词两大类。请参见表1,表1为异常事件词表中的实体词的一部分示例,最后共计得到了约700个实体词。
请参见表2,表2为异常事件词表中的事件词的一部分示例,最后共计得到了约200个事件词。
步骤S102,对待提取文本进行分词和词性标注,得到多个分词结果及其词性;
在一实施方式中,所述对待提取文本进行分词和词性标注的步骤,包括:将所述待提取文本输入LAC分词工具;通过所述LAC分词工具对所述待提取文本进行分词处理,得到多个所述分词结果;对各所述分词结果进行词性标注;输出各所述分词结果对应的分词结果词性。
LAC分词工具,为百度提供的开源分词工具,可以直接输入样本后,输出分词结果及其词性。例如,输入“LAC是个优秀的分词工具”,输出[['LAC', '是', '个', '优秀', '的', '分词', '工具'], ['nz', 'v', 'q', 'a', 'u', 'n', 'n']]。其中'nz'代表专名,'v'代表普通动词,'q'代表量词,'a'代表形容词,'u'代表助词, 'n'代表名词。
步骤S103,将所述待提取文本划分为多个短句,基于所述分词结果判断多个所述短句中是否存在假设句;
在一实施方式中,所述基于所述分词结果判断多个所述短句中是否存在假设句的步骤,包括:判断各所述短句对应的多个所述分词结果中是否包含假设语气词;若所述短句对应的多个所述分词结果中存在至少一个所述假设语气词,则确定所述短句为假设句。假设语气词包含:“如果”、“要是”虚拟语气表达方式,也包含“上次”、“以前”这种回忆性的表达方式。
步骤S104,若多个所述短句中存在假设句,则将多个所述短句中的假设句删除,得到剩余短句;假设句可能会对监狱短信异常事件的提取造成干扰,所以,在进行最终的匹配之前,需要将假设句删除,留下的剩余短句用于下一步和异常事件词表进行匹配。
步骤S105,基于所述异常事件词表对所述剩余短句进行词表匹配,得到多个匹配结果及其词性,判断各所述匹配结果的词性是否符合词性限制;
按照最长匹配原则,对所述剩余短句进行词表匹配。最长匹配原则,即在以某个下标为起点递增查词的过程中,优先输出与对应的匹配词表更长的单词,这种规则被称为最长匹配原则。从前往后匹配则称为正向最长匹配,反之则称为逆向最长匹配。例如,输入“我没有钱”,从“没”字开始扫描,查询到“没有”、“没有钱”两个词与词表匹配,则优先输出较长的“没有钱”。判断各所述匹配结果的词性是否符合词性限制,是因为有的词具有多个词性,如“罚款”既可以表示名词,也可以表示动词,若应用场景为“交了xx元的罚款”,显然在这里“罚款”为名词,若匹配到的“罚款”对应的是动词词性,则不符合词性限制。在本实施方式中,采用的匹配词表就是上文得出的异常事件词表。
步骤S106,若存在词性不符合词性限制的错误匹配结果,则从各所述匹配结果中删除所述错误匹配结果,输出异常事件提取结果。
考虑到假设语气和词性不符合词性限制的情况并将其删除,可以保证最后结果的准确性,避免误判。
本实施例提供的异常事件提取方法,可以在监狱短信能提供的标注数据较难获取、很难对现有的模型进行训练的情况下,通过词向量模型和DSG模型协同召回与种子词相似的召回词,得到较大数据量的召回词,形成覆盖广的异常事件词表,并根据异常事件词表对待提取文本进行异常事件提取,这样,可以根据异常事件提取结果了解到服刑人员的个人情况,实现对服刑人员的个性化帮扶及改造。
实施例2
此外,本公开实施例提供了一种监狱短信异常事件提取装置。
具体的,如图7所示,监狱短信异常事件提取装置700包括:
生成模块710,用于基于样本数据生成异常事件词表;
标注模块720,用于对待提取文本进行分词和词性标注,得到多个分词结果及其词性;
判断模块730,用于将所述待提取文本划分为多个短句,基于所述分词结果判断多个所述短句中是否存在假设句;
删除模块740,用于若多个所述短句中存在假设句,则将多个所述短句中的假设句删除,得到剩余短句;
匹配模块750,基于所述异常事件词表对所述剩余短句进行词表匹配,得到多个匹配结果及其词性,判断各所述匹配结果的词性是否符合词性限制;
输出模块760,若存在词性不符合词性限制的错误匹配结果,则从各所述匹配结果中删除所述错误匹配结果,输出异常事件提取结果。
在一实施方式中,所述生成模块710,还用于:
基于所述样本数据生成种子词典;
对所述种子词典中的各种子词进行词性标注;
基于相似词召回模型获取各所述种子词对应的多个召回词;
对多个所述召回词进行筛选,判断各所述召回词是否符合预设类别,从多个所述召回词中删去不符合预设类别的召回词,得到所述异常事件词表。
在一实施方式中,所述标注模块720,还用于:
对各所述召回词进行词性标注,各所述召回词的词性与所述召回词对应的种子词的词性相同。
在一实施方式中,所述标注模块720,还用于:
将所述待提取文本输入LAC分词工具;
通过所述LAC分词工具对所述待提取文本进行分词处理,得到多个所述分词结果;
对各所述分词结果进行词性标注;
输出各所述分词结果对应的分词结果词性。
在一实施方式中,所述判断模块730,还用于:
判断各所述短句对应的多个所述分词结果中是否包含假设语气词;
若所述短句对应的多个所述分词结果中存在至少一个所述假设语气词,则确定所述短句为假设句。
本实施例提供的监狱短信异常事件提取装置700可以实现实施例1所提供的监狱短信异常事件提取方法,为避免重复,在此不再赘述。
本实施例提供的异常事件提取装置,可以在监狱短信能提供的标注数据较难获取、很难对现有的模型进行训练的情况下,通过词向量模型和DSG模型协同召回与种子词相似的召回词,得到较大数据量的召回词,形成覆盖广的异常事件词表,并根据异常事件词表对待提取文本进行异常事件提取,这样,可以根据异常事件提取结果了解到服刑人员的个人情况,实现对服刑人员的个性化帮扶及改造。
实施例3
此外,本公开实施例提供了一种计算机设备,包括存储器以及处理器,所述存储器存储有计算机程序,所述计算机程序在所述处理器上运行时执行实施例1所提供的监狱短信异常事件提取方法。
本发明实施例提供的计算机设备,可以执行上述方法实施例中的异常事件提取装置可以执行的步骤,不再赘述。
本实施例提供的计算机设备,可以在监狱短信能提供的标注数据较难获取、很难对现有的模型进行训练的情况下,通过词向量模型和DSG模型协同召回与种子词相似的召回词,得到较大数据量的召回词,形成覆盖广的异常事件词表,并根据异常事件词表对待提取文本进行异常事件提取,这样,可以根据异常事件提取结果了解到服刑人员的个人情况,实现对服刑人员的个性化帮扶及改造。
实施例4
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现实施例1所提供的异常事件提取方法。
在本实施例中,计算机可读存储介质可以为只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
本实施例提供的计算机可读存储介质可以实现实施例1所提供的监狱短信异常事件提取方法,为避免重复,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者终端中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。
Claims (10)
1.一种监狱短信异常事件提取方法,其特征在于,所述方法包括:
基于样本数据生成异常事件词表;
对待提取文本进行分词和词性标注,得到多个分词结果及其词性;
将所述待提取文本划分为多个短句,基于所述分词结果判断多个所述短句中是否存在假设句;
若多个所述短句中存在假设句,则将多个所述短句中的假设句删除,得到剩余短句;
基于所述异常事件词表对所述剩余短句进行词表匹配,得到多个匹配结果及其词性,判断各所述匹配结果的词性是否符合词性限制;
若存在词性不符合词性限制的错误匹配结果,则从各所述匹配结果中删除所述错误匹配结果,输出异常事件提取结果。
2.根据权利要求1所述的监狱短信异常事件提取方法,其特征在于,所述基于样本数据生成异常事件词表的步骤包括:
基于所述样本数据生成种子词典;
对所述种子词典中的各种子词进行词性标注;
基于相似词召回模型获取各所述种子词对应的多个召回词;
对多个所述召回词进行筛选,判断各所述召回词是否符合预设类别,从多个所述召回词中删去不符合预设类别的召回词,得到所述异常事件词表。
3.根据权利要求2所述的监狱短信异常事件提取方法,其特征在于,所述方法还包括:
对各所述召回词进行词性标注,各所述召回词的词性与所述召回词对应的种子词的词性相同。
4.根据权利要求2所述的监狱短信异常事件提取方法,其特征在于,所述种子词典包括实体词与事件词。
5.根据权利要求2所述的监狱短信异常事件提取方法,其特征在于,所述相似词召回模型包括词向量模型和DSG模型,所述词向量模型基于历史短信文本训练得到,所述DSG模型基于互联网语料训练得到。
6.根据权利要求1所述的监狱短信异常事件提取方法,其特征在于,所述对待提取文本进行分词和词性标注的步骤,包括:
将所述待提取文本输入LAC分词工具;
通过所述LAC分词工具对所述待提取文本进行分词处理,得到多个所述分词结果;
对各所述分词结果进行词性标注;
输出各所述分词结果对应的分词结果词性。
7.根据权利要求1所述的监狱短信异常事件提取方法,其特征在于,所述基于所述分词结果判断多个所述短句中是否存在假设句的步骤,包括:
判断各所述短句对应的多个所述分词结果中是否包含假设语气词;
若所述短句对应的多个所述分词结果中存在至少一个所述假设语气词,则确定所述短句为假设句。
8.一种监狱短信异常事件提取装置,其特征在于,所述装置包括:
生成模块,用于基于样本数据生成异常事件词表;
标注模块,用于对待提取文本进行分词和词性标注,得到多个分词结果及其词性;
判断模块,用于将所述待提取文本划分为多个短句,基于所述分词结果判断多个所述短句中是否存在假设句;
删除模块,用于若多个所述短句中存在假设句,则将多个所述短句中的假设句删除,得到剩余短句;
匹配模块,基于所述异常事件词表对所述剩余短句进行词表匹配,得到多个匹配结果及其词性,判断各所述匹配结果的词性是否符合词性限制;
输出模块,若存在词性不符合词性限制的错误匹配结果,则从各所述匹配结果中删除所述错误匹配结果,输出异常事件提取结果。
9.一种计算机设备,其特征在于,包括存储器以及处理器,所述存储器存储有计算机程序,所述计算机程序在所述处理器运行时执行权利要求1至7中任一项所述的监狱短信异常事件提取方法。
10.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序在处理器上运行时执行权利要求1至7中任一项所述的监狱短信异常事件提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211194925.5A CN115293156B (zh) | 2022-09-29 | 2022-09-29 | 监狱短信异常事件提取方法、装置、计算机设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211194925.5A CN115293156B (zh) | 2022-09-29 | 2022-09-29 | 监狱短信异常事件提取方法、装置、计算机设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115293156A true CN115293156A (zh) | 2022-11-04 |
CN115293156B CN115293156B (zh) | 2023-02-03 |
Family
ID=83833853
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211194925.5A Active CN115293156B (zh) | 2022-09-29 | 2022-09-29 | 监狱短信异常事件提取方法、装置、计算机设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115293156B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011003095A1 (en) * | 2009-07-02 | 2011-01-06 | Tryton Medical, Inc. | Ostium support for treating vascular bifurcations |
CN104572958A (zh) * | 2014-12-29 | 2015-04-29 | 中国科学院计算机网络信息中心 | 一种基于事件抽取的敏感信息监控方法 |
CN107038163A (zh) * | 2016-02-03 | 2017-08-11 | 常州普适信息科技有限公司 | 一种面向海量互联网信息的文本语义建模方法 |
CN107256270A (zh) * | 2011-06-29 | 2017-10-17 | 微软技术许可有限责任公司 | 将搜索历史组织成合集 |
US20190018952A1 (en) * | 2015-04-27 | 2019-01-17 | Apple Inc. | Authentication and control of encryption keys |
CN110348001A (zh) * | 2018-04-04 | 2019-10-18 | 腾讯科技(深圳)有限公司 | 一种词向量训练方法和服务器 |
CN111159359A (zh) * | 2019-12-31 | 2020-05-15 | 达闼科技成都有限公司 | 文档检索方法、装置及计算机可读存储介质 |
CN111666405A (zh) * | 2019-03-06 | 2020-09-15 | 百度在线网络技术(北京)有限公司 | 用于识别文本蕴含关系的方法和装置 |
CN112699677A (zh) * | 2020-12-31 | 2021-04-23 | 竹间智能科技(上海)有限公司 | 事件提取方法及装置、电子设备、存储介质 |
CN114579767A (zh) * | 2022-03-24 | 2022-06-03 | 北京明略昭辉科技有限公司 | 因果关系抽取方法、装置、电子设备及可读存储介质 |
CN114595681A (zh) * | 2022-02-08 | 2022-06-07 | 清华大学 | 文本切分方法及装置 |
-
2022
- 2022-09-29 CN CN202211194925.5A patent/CN115293156B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011003095A1 (en) * | 2009-07-02 | 2011-01-06 | Tryton Medical, Inc. | Ostium support for treating vascular bifurcations |
CN107256270A (zh) * | 2011-06-29 | 2017-10-17 | 微软技术许可有限责任公司 | 将搜索历史组织成合集 |
CN104572958A (zh) * | 2014-12-29 | 2015-04-29 | 中国科学院计算机网络信息中心 | 一种基于事件抽取的敏感信息监控方法 |
US20190018952A1 (en) * | 2015-04-27 | 2019-01-17 | Apple Inc. | Authentication and control of encryption keys |
CN107038163A (zh) * | 2016-02-03 | 2017-08-11 | 常州普适信息科技有限公司 | 一种面向海量互联网信息的文本语义建模方法 |
CN110348001A (zh) * | 2018-04-04 | 2019-10-18 | 腾讯科技(深圳)有限公司 | 一种词向量训练方法和服务器 |
CN111666405A (zh) * | 2019-03-06 | 2020-09-15 | 百度在线网络技术(北京)有限公司 | 用于识别文本蕴含关系的方法和装置 |
CN111159359A (zh) * | 2019-12-31 | 2020-05-15 | 达闼科技成都有限公司 | 文档检索方法、装置及计算机可读存储介质 |
CN112699677A (zh) * | 2020-12-31 | 2021-04-23 | 竹间智能科技(上海)有限公司 | 事件提取方法及装置、电子设备、存储介质 |
CN114595681A (zh) * | 2022-02-08 | 2022-06-07 | 清华大学 | 文本切分方法及装置 |
CN114579767A (zh) * | 2022-03-24 | 2022-06-03 | 北京明略昭辉科技有限公司 | 因果关系抽取方法、装置、电子设备及可读存储介质 |
Non-Patent Citations (3)
Title |
---|
崔莹: "基于相似义原和依存句法的政外领域事件抽取方法", 《计算机工程与科学》 * |
王连喜: "面向公共安全领域的词典构建及其舆情事件识别研究", 《情报探索》 * |
章成志等: "基于学术论文全文的研究方法实体自动识别研究", 《情报学报》 * |
Also Published As
Publication number | Publication date |
---|---|
CN115293156B (zh) | 2023-02-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11475897B2 (en) | Method and apparatus for response using voice matching user category | |
EP2437181B1 (en) | Automatic language model update | |
CN101030368B (zh) | 在保持情感的同时跨通道进行通信的方法和系统 | |
EP3405912A1 (en) | Analyzing textual data | |
CN110459210A (zh) | 基于语音分析的问答方法、装置、设备及存储介质 | |
CN108304375A (zh) | 一种信息识别方法及其设备、存储介质、终端 | |
CN114580382A (zh) | 文本纠错方法以及装置 | |
CN100592385C (zh) | 用于对多语言的姓名进行语音识别的方法和系统 | |
CN108304424B (zh) | 文本关键词提取方法及文本关键词提取装置 | |
CN111223476B (zh) | 语音特征向量的提取方法、装置、计算机设备和存储介质 | |
CN111930914A (zh) | 问题生成方法和装置、电子设备以及计算机可读存储介质 | |
CN109190124A (zh) | 用于分词的方法和装置 | |
KR101677859B1 (ko) | 지식 베이스를 이용하는 시스템 응답 생성 방법 및 이를 수행하는 장치 | |
US9805740B2 (en) | Language analysis based on word-selection, and language analysis apparatus | |
CN112527955A (zh) | 一种数据处理的方法和装置 | |
CN111859950A (zh) | 一种自动化生成讲稿的方法 | |
Dyriv et al. | The user's psychological state identification based on Big Data analysis for person's electronic diary | |
CN111508497A (zh) | 语音识别方法、装置、电子设备及存储介质 | |
CN110059174A (zh) | 问询指引方法及装置 | |
CN115293156B (zh) | 监狱短信异常事件提取方法、装置、计算机设备及介质 | |
CN115292495A (zh) | 情绪分析方法、装置、电子设备及存储介质 | |
CN115620726A (zh) | 语音文本生成方法、语音文本生成模型的训练方法、装置 | |
CN114417827A (zh) | 文本上下文处理方法、装置、电子设备和存储介质 | |
Šoić et al. | Spoken notifications in smart environments using Croatian language | |
CN111813989A (zh) | 信息处理方法、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |