CN110929518A - 一种使用重叠拆分规则的文本序列标注算法 - Google Patents

一种使用重叠拆分规则的文本序列标注算法 Download PDF

Info

Publication number
CN110929518A
CN110929518A CN201911248256.3A CN201911248256A CN110929518A CN 110929518 A CN110929518 A CN 110929518A CN 201911248256 A CN201911248256 A CN 201911248256A CN 110929518 A CN110929518 A CN 110929518A
Authority
CN
China
Prior art keywords
entity
text
model
sequence labeling
overlap
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911248256.3A
Other languages
English (en)
Other versions
CN110929518B (zh
Inventor
朱利
崔诚煜
李元伟
陈杭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201911248256.3A priority Critical patent/CN110929518B/zh
Publication of CN110929518A publication Critical patent/CN110929518A/zh
Application granted granted Critical
Publication of CN110929518B publication Critical patent/CN110929518B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供了一种使用重叠拆分规则的文本序列标注算法,经验上,完成一个基于深度学习的序列标注任务模型,在训练阶段,其最大序列长度固定为有限值;而在预测阶段,自然文本序列长度常常超过模型最大序列长度,此时会造成模型的F1值降低。采用重叠拆分规则方式,对于待预测文本长度超过模型最大序列长度时,将超长文本拆分为若干不大于最大序列长度的子序列,各个子序列之间设置重叠区域,即重叠拆分处理。重叠拆分方式规则能够适用于不同类型的特征抽取器模型,可以在一定程度上提升模型预测效果,同时对于RNN特征抽取器,可以大幅度提升处理效率,在我们已完成的序列标注任务工程上有广泛的、非常好的应用。

Description

一种使用重叠拆分规则的文本序列标注算法
技术领域
本发明属于自然语言处理领域,特别涉及自然语言的序列标注算法,如分词、词性标注、命名实体识别等,进一步地涉及一种使用重叠拆分规则的文本序列标注算法。
背景技术
人类社会的知识和信息大多以人类创造的语言文字的形式进行记录,计算机可以方便快捷的对文本进行存储和记录。但是,计算机仅能传递、保存信息,无法直接识别、理解、运用语言文字。自然语言处理就是一种处理人类自然语言文本的算法技术。
其中,分词(Words Segmentation)、词性标注(POS Tagging)和命名实体识别(Named Entity Recognition)是自然语言处理的基础任务。
1)、分词,将一句话(字的序列)分割成词的序列。如句子“张某某目前任职于水利局。”,被分解成“张某某”,“目前”,“任职”,“于”,“水利局”,“。”。
2)、词性标注,为每一个词赋予一个词性。如名词、动词、形容词等。如前例中,“张某某”、“水利局”是名词,“目前”是副词,“任职”是动词,“于”是介词,“。”是标点符号。
3)、命名实体识别,提取文中特定类型的词汇实体。如文中的“张某某”(类型:人名),“水利局”(类型:机构)等,其余文字不是实体。
分词、词性标注、命名实体识别都可以被转化为序列标注(Sequence Labeling)问题。序列标注通过为每一个单元(字或词,英文为token)赋予一个标签,从而达到分块和分类的目的。最常用的标签方式有(BIEOS)标签等,如:
1)、分词,“张(B)小(I)川(E)目(B)前(E)任(B)职(E)于(S)水(B)利(I)局(E)。(B)”,其中的B代表开始(Begin),I代表中间(Inside),E代表结尾(End),S代表单字成词或实体 (Single),出现B或S的地方即为边界,通过对B、S、E标签标识出的边界,就可以提取出词汇:“张某某”,“目前”,“任职”,“于”,“水利局”,“。”。
2)、词性标注,“张(B-NR)小(I-NR)川(E-NR)目(B-ADV)前(E-ADV)任(B-V)职(E-V)于(S-PREP)水(B-NG)利(I-NG)局(E-NG)。(B-WJ)”,其中B-NR中的B代表边界,NR代表类别,这里表示人名。这种方式既区分了边界又标识了类别,即词性。
3)、实体识别,“张(B-Person)小(I-Person)川(E-Person)目(O)前(O)任(O)职(O)于(O) 水(B-Organiztion)利(I-Organiztion)局(E-Organiztion)。(O)”,跟词性标注类似,只是多了一个标签O,表示Outside,表示不是任务所关注的类别。通过对标签进行处理,就可以提取出实体:“张某某”(类型:Person)、“水利局”(类型:Time)。
序列标注任务目前最流行的算法是“深度学习模型+CRF”:
1)模型部分。如在序列标注中目前最为经典的BI-LSTM-CRF模型中的BI-LSTM,指双向的LSTM循环神经网络,是一种深度学习模型,其任务是为每一个单元,这里以字为例,所属的各种类别分配一个分数,相当于对每一个字执行分类任务。如图1所示,“张”字对应一个7维向量,其中第“B-Person”维分数最高,说明这个字对应这个类别的概率越高,即把“张”字划分为“B-Person”类别。Bi-LSTM可以被替换成其他的模型,如Bi-GRU,多层CNN,多层BI-LSTM,Transformer等各种常见特征抽取器。
2)CRF部分,这里特指Linear Chain CRF(Conditional Random Field),它是一种概率图模型。在这里的主要作用是对标签之间的关系做优化,找出概率最大的一个标签序列(一般使用Viterbi算法进行解码)。如B-Person标签后面不可能跟I-Orgnization标签,而跟I-Person标签的可能性更高。经过CRF层的优化,序列标注精度得以提升。值得一提的是,随着技术的发展,2018年谷歌研发了性能更强的BERT模型 (https://arxiv.org/pdf/1810.04805),它采用Transformer作为特征抽取器,模型表达能力很强,很大程度上可以克服如B-Person标签后面跟随I-Orgnization标签的问题,因此, CRF部分可以去掉。该算法的主要流程如图2所示。序列标注任务的模型训练指标,主要采用F1值进行评价,它权衡了预测的精确率和召回率。
以上序列标注模型的系统输入是句子序列,而句子序列则存在一定的固有分布。据统计,在中文里,句子的长度分配比例大致符合Poisson分布,结果如表1所示。
表1句子长度和字数占比
Figure RE-GDA0002360753610000021
从表1中可以看出,在大量的互联网新闻文本中,句子长度超过100字的个数占比为 1.5%,这些句子包含的汉字个数占比为6.2%,该统计考虑了互联网文本由于使用HTML格式,造成了若干无标点文本误组成的超长文本。
现有技术是一种有监督的机器学习算法,在训练阶段有数以百万至上亿的参数需要进行拟合调优。参数量过大或过小会带来各种问题,模型训练必须对序列最大长度、模型层数、特征维度等超参数做出控制。
其中,模型训练的序列最大长度对模型的性能和效果影响巨大。例如,在训练模型阶段,选取序列最大长度为100个token,例如,示例句子“张某某目前任职于水利局,他曾经主管负责过市河道水利工程......”的最大长度不超过100个字。然而,如表1所示,在模型的预测使用阶段,句子的长度有一定比例会超过100个token,对于超长句子,不同的模型有不同的处理方式。RNN、LSTM、GRU等循环神经网络特征抽取器由于满足自回归,可以直接方便地处理超长序列;而CNN、Transformer等特征抽取器,一般情况下,需要对序列做强制截断处理。
各类特征抽取器对于超长序列均存在效果下降的问题。
1、对于RNN、LSTM、GRU等循环神经网络特征抽取器,问题在于,模型训练仅训练了最大序列长度范围内的序列特征,而对超出部分,预测效果(主要指F1值)会随着长度的增加缓慢下降。
例如:
句1:张某某目前任职于水(8)利(9)局(10)。
句2:北京市政府出台了一系列措施,用于改善市区的便民设施情况;其中,一项很重要的工作就是居民的用水安全和用水便捷程度;这样的工作繁琐而细碎,需要消耗大量的人力物力;不过,北京市水利局却有办法解决这个问题,原因在于,张某某曾经在水(111)利(112)局(113)担任局长。
以上两句子中,“水利局”指待识别的机构名称(Organization),括号中数字表示该字在句子中的索引位置,即句1中,第8个字至第10个字为“水利局”,句2同理。将以上两句子输入已训练好的模型,假设模型规定最大序列长度为100,第一句由于索引位置在最大序列长度100字范围内,第二句中“水利局”三个字位置超过100字,故第一句预测准确“水利局(Organization)”的概率要高于第二句。
此外,由于循环神经网络固有的自回归特性,需循环迭代;若句子长度超长,将耗费大量时间,这在工程上是不允许的。
2、对于CNN、Transformer等特征抽取器,强制截断会直接导致效果降低。相反,若为模型设计较大的最大序列长度,会导致模型过大,计算空间效率低下。
例如:
句1:......张某某目前任职于水(99)利(100)局(101)。...
句2:......张某某目前任职于水(99)利(100)
句3:局(1)。...
将句1强制拆分后的结果为句2和句3,这样,“水利局”实体被强制拆分在两个分句中,则预测结果一定是错误的。
发明内容
为了解决上述处理序列标注任务中的超长句子时存在的技术难题,本发明提供了一种方法,能够适用于各类序列标注任务的、适用于不同类型的特征抽取器的经验性规则,可以在一定程度上提升超长句子序列的模型预测效果,同时对于RNN等循环神经网络,可以大幅度提升处理效率,在工程上有非常好的应用,为一种使用重叠拆分规则的文本序列标注算法,具体的技术方案为:采用拆分方法具体为:
(1)训练完成一个基于深度学习的序列标注任务模型后,在预测阶段,对于待预测文本长度超过模型最大序列长度时,将超长文本拆分为若干不大于最大序列长度的子序列,各个子序列之间设置重叠区域;
(2)获得的若干子序列可以通过并行的方式使用模型做预测,将得到的序列结果按照一套通用的经验规则做拼接合并,即得到最终的超长文本的序列标注结果。
作为改进,上述文本序列标注算法适用于针对分词、词性标注、命名实体识别三种任务中任一种或者至少两种的组合。
作为改进,方法(1)的重叠区域预测结果中,存在当一个实体或词汇包含另一个实体或词汇的关系,且都有实体或词汇取到截断边界时,则直接合并,取较长的实体或词汇。
作为改进,方法(1)的重叠区域预测结果中,仅有一个句子的重叠部分有实体或词汇取到截断边界时,则去掉该实体或词汇,然后进行合并。
作为改进,方法(1)的重叠区域预测结果中,当针对命名实体识别任务时,若一边有实体标签、而另一边为空标签时,以有实体的一侧为准进行合并。
作为改进,所述空标签为O标签。
作为改进,方法(1)的重叠区域预测结果中,当实体或词汇结构没有包含关系,只有部分重叠时,取并集。
作为改进,当实体或词汇类型不一致时,取相对靠后的部分的标签类别。
有益效果:本发明提供的一种使用重叠拆分规则的文本序列标注算法,能够适用于各类序列标注任务的、适用于不同类型的特征抽取器的规则,可以在一定程度上提升超长文本序列的模型预测效果,同时对于RNN等循环神经网络,可以大幅度提升处理效率,在我们完成的序列标注任务工程上有广泛的、非常好的应用。
附图说明
图1为现有技术中BI-LSTM-CRF模型的主要流程示意图。
图2为现有技术中序列标注模型的主要流程示意图。
图3为本发明中使用重叠拆分规则的文本序列标注算法的示意图。
具体实施方式
下面对本发明附图结合实施例作出详细说明。
以下针对本发明的具体实施例进行详细说明。
(1)对于有标点符号的句子,按照标点符号进行分割,如“,”、“。”、“;”等等。将分割后的句子输入模型进行预测,最后将结果进行拼接。经验上,序列标注任务往往需要按标点做分句处理,但本专利实施时可以跨过该步,直接进行重叠拆分。
(2)对于没有分隔符号的句子,且长度依然超过最大序列训练长度时,则需要设置重叠区域,进行重叠拆分。设置重叠区域的目的在于确保断句的地方也能被正确识别。
实施例1
重叠拆分:假设最大句子长度为10,重叠部分长度是3,则可将以下句子分割得到若干短句。
例句1:其中一项很重要的工作就是居民的用水安全和用水便捷程度,见表2。
表2例句1进行重叠拆分的案例示范
由此,进行拆分后变为上述四个分句,可以得到均满足模型最大序列长度的句子,这样可以解决循环神经网络处理速度过慢的问题。
将上述分句使用训练好的序列标注模型进行预测,得到各个分句的预测标签结果。将各个分句的结果标签按规则合并,即得到最终的超长文本序列标签,具体规则为(以BIEOS标注标准为例):
当一个实体或词汇包含另一个实体或词汇,若两个句子的重叠部分中,都有实体或词汇取到截断边界即出现B、E、S标签,则直接合并,取较长的实体或词汇。这可针对分词、词性标注、命名实体识别三种任务。
实施例2
描述:一个实体(或词汇)包含另一个实体(或词汇),即存在包含关系。
若两个句子的重叠部分中,都有实体(或词汇)取到截断边界(B、E、S标签),则直接合并,取较长的实体(或词汇)。这可针对分词、词性标注、命名实体识别三种任务。(1)如下例2命名实体识别结果,“贵阳市大数据中心”复盖了“大数据中心”,取较长实体“贵阳市大数据中心”,见表3。
表3例2进行重叠拆分的案例示范
Token 重叠部分1 重叠部分2
O
O
O
B-Organization O
I-Organization O
I-Organization O
I-Organization B-Organization
I-Organization I-Organization
I-Organization I-Organization
I-Organization I-Organization
E-Organization E-Organization
O O
O
O
O
(2)如下例3分词结果,其中,“贵阳市”复盖了“贵阳”和“市”,取较长词汇“贵阳市”,词性标注消解方案同分词一致:
表4例3进行重叠拆分的案例示范
Token 重叠部分1 重叠部分2
B
E
S
B B
I E
E S
B B
I I
E E
B B
E E
B
E
S
B
若两个句子的重叠部分中,仅有一个句子的重叠部分有实体或词汇取到截断边界即出现B、E、S标签,则去掉该实体或词汇,然后进行合并。
实施例3
若两个句子的重叠部分中,仅有一个句子的重叠部分有实体(或词汇)取到截断边界(B、E、S标签),则去掉该实体(或词汇),然后进行合并。
(1)如下例4命名实体识别结果:“政”字和“市”字分别是两个重叠部分的起始字符和末尾字符,其中一个有实体,另一个没有,则需要先将“政府采购网”这个完整实体忽略,然后进行合并。
表5例4进行重叠拆分的案例示范
Token 重叠部分1 重叠部分2
B-Organization
I-Organization
I-Organization
I-Organization B-Organization
I-Organization I-Organization
I-Organization I-Organization
I-Organization I-Organization
E-Organization E-Organization
O O
O B-Organization
O I-Organization
O I-Organization
I-Organization
I-Organization
I-Organization
I-Organization
E-Organization
(2)如下例5分词结果,“府”字对应“E”标签和“S”标签,即其中一个部分中取到截断边界,而另外一个则与其他字构成词,则需要先将“府”-“S”这个完整成词忽略,然后进行合并。词性标注策略与分词完全一致:
表6例5进行重叠拆分的案例示范
Figure RE-GDA0002360753610000081
Figure RE-GDA0002360753610000091
当针对命名实体识别任务时,若一边有实体标签、而另一边为空标签(如O标签),以有实体的一侧为准。
实施例4
针对命名实体识别,还有一种特殊情况,即一边有实体标签、而另一边没有(即O标签)。分词和词性标注不存在此种情况。若两个句子的重叠部分中,一个有实体,另一个空白标签(即O标签),以有实体的一侧为准。
如下例6命名实体识别结果,重叠部分中一边有实体标签,而另一边由于截断造成“O”标签,则以有实体为准进行合并:
表7例6进行重叠拆分的案例示范
Figure RE-GDA0002360753610000092
Figure RE-GDA0002360753610000101
实体或词汇结构有重叠,没有包含关系,即只有部分重叠时,有重叠时,一般规则是取并集,且当实体类型不一致时,取相对靠后的部分的标签类别,词性标注同理。同时分词不存在类别标签的问题。
实施例5
实体(或词汇)结构有重叠,没有包含关系,即只有部分重叠时,有重叠时,一般规则是取并集,且当实体类型不一致时,取相对靠后的部分的标签类别。词性标注同理。分词不存在类别标签的问题。
(1)如下例7命名实体识别结果:“京”字和“通”字分别是两个截断部分的首字和末字,按照规则的定义,需要先将“北京万通”这个实体的类型忽略掉,然后再对这两个重叠部分进行合并,得到最终的结果。
表8例7进行重叠拆分的案例示范
Token 重叠部分1 重叠部分2
O
B-Organization B-Company
I-Organization I-Company
I-Organization I-Company
E-Organization I-Company
I-Company
I-Company
I-Company
I-Company
I-Company
I-Company
I-Company
E-Company
(2)如下例8分词结果:两个重叠部分的结果分别是“万通互”字和“通互联”,按照算法的定义,直接对这两个重叠部分进行合并,得到最终的结果,不存在类型标签的问题。
表9例8进行重叠拆分的案例示范
Figure RE-GDA0002360753610000111
Figure RE-GDA0002360753610000121
(3)如下例9词性标注结果:两个重叠部分的结果分别是“万通互”字和“通互联”,按照规则的定义,将两个类型标签取一致,即都取专有名词类“NP”,然后对这两个重叠部分进行合并,得到最终的结果。
表10例9进行重叠拆分的案例示范
Token 重叠部分1 重叠部分2
S-PREP
B-NL
E-NL
B-NR
I-NR B-NP
E-NR I-NP
E-NP
B-N
E-N
B-ADJ
E-ADJ
B-N
E-N
根据以上规则分析,可知,上述规则适用性广,可以适应常见的序列标注任务,可涵盖大部分重叠拆分造成的标签不一致情况。且该套方法直接寻找模型输出端结果,处理速度快。
同时,本发明在5000万字标注了分词、词性、实体的新闻舆情数据中进行命名实体识别模型训练和测试,词性包括22种中文词性类别,实体包括人名(Person)、机构(Orgnization)和公司(Company)三种类别。使用模型是Bi-LSTM-CRF模型,由于该重叠拆分算法与特征抽取器无关、也与CRF层无关,故将其替换为其它模型如 CNN,Transformer等,同样适用。
模型的最大序列长度为100字,在不采用该重叠拆分的算法时,命名实体识别模型在测试集上的F1值达到了94.6%,预测速度平均为46000字每秒,且由于文本句子长度变化较大,实际工程当中,最长的带预测文本长度达到了1000余字,预测耗时不稳定。
在采用该重叠拆分算法后,模型在测试集的F1值为95.3%,在同等资源配置情况下,预测速度平均为160000字每秒,且由于重叠拆分,句子最大长度固定,预测耗时非常稳定。
由于CNN、Transformer等类型特征抽取器的预测损失主要来自于截断损失,一种直接的处理方式是强制拆分,另一种是本发明算法重叠拆分。针对上述同样的训练和测试数据集,使用基于Bert(使用了Transformer,最大序列长度为100)的命名实体识别模型进行试验。在使用强制拆分时,在测试集上F1值达到了96.8%;而使用了重叠拆分的模型在测试集上F1值取得97.4%。这证明,重叠拆分优于强制拆分。重叠拆分规则在实际的工程的分词、词性标注、命名实体识别任务上均有使用,且效果非常理想。
同理,重叠拆分算法在依据上述标注数据基础上,完成的分词和词性标注任务上有同样的效果提升,实验数据汇总如下:
表11重叠拆分算法的实验数据
Figure RE-GDA0002360753610000131
根据以上重叠拆分技术方案,可以得出结论,由于将超长句子进行拆分,然后依据经验规则合并,必然会造成某些实体被误识别。从这一点上看,该方案会带来一定效果损失,记该损失为rule_loss;同时,由于该方案避免了超长句子超过模型训练长度,模型拟合能力下降,实际上对预测能力有一定提升,该提升记作max_length_improve。记不采用该技术方案的F1值为orig_f1,则可得,采用该技术方案之后的F1值为new_f1=orig_f1-rule_loss-max_length_improve。从上述结果上看,采用重叠拆分算法后,规则带来的损失小于直接预测超长句子的损失,从而带来了效果提升。与此同时,还在分词任务和词性标注任务上做了试验,模型在超长文本序列的处理上均有提升。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (8)

1.一种使用重叠拆分规则的文本序列标注算法,其特征在于:采用拆分方法具体为:
(1)训练完成一个基于深度学习的序列标注任务模型后,在预测阶段,对于待预测文本长度超过模型最大序列长度时,将超长文本拆分为若干不大于最大序列长度的子序列,各个子序列之间设置重叠区域;
(2)获得的若干子序列可以通过并行的方式使用模型做预测,将得到的序列结果按照一套通用的经验规则做拼接合并,即得到最终的超长文本的序列标注结果。
2.一种根据权利要求1所述的使用重叠拆分规则的文本序列标注算法,其特征在于:所述算法适用于针对分词、词性标注、命名实体识别三种任务。
3.根据权利要求1所述的一种使用重叠拆分规则的文本序列标注算法,其特征在于:方法(1)的重叠区域中,存在当一个实体或词汇包含另一个实体或词汇的关系,且都有实体或词汇取到截断边界时,则直接合并,取较长的实体或词汇。
4.根据权利要求1所述的一种使用重叠拆分规则的文本序列标注算法,其特征在于:方法(1)的重叠区域预测结果中,仅有一个句子的重叠部分有实体或词汇取到截断边界时,则去掉该实体或词汇,然后进行合并。
5.根据权利要求1所述的一种使用重叠拆分规则的文本序列标注算法,其特征在于:方法(1)的重叠区域预测结果中,当针对命名实体识别任务时,若一边有实体标签、而另一边为空标签时,以有实体的一侧为准进行合并。
6.根据权利要求5所述的一种使用重叠拆分规则的文本序列标注算法,其特征在于:所述空标签为O标签。
7.根据权利要求1所述的一种使用重叠拆分规则的文本序列标注算法,其特征在于:方法(1)的重叠区域预测结果中,当实体或词汇结构没有包含关系,只有部分重叠时,取并集。
8.根据权利要求7所述的一种使用重叠拆分规则的文本序列标注算法,其特征在于:当实体或词汇类型不一致时,取相对靠后的部分的标签类别。
CN201911248256.3A 2019-12-09 2019-12-09 一种使用重叠拆分规则的文本序列标注算法 Active CN110929518B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911248256.3A CN110929518B (zh) 2019-12-09 2019-12-09 一种使用重叠拆分规则的文本序列标注算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911248256.3A CN110929518B (zh) 2019-12-09 2019-12-09 一种使用重叠拆分规则的文本序列标注算法

Publications (2)

Publication Number Publication Date
CN110929518A true CN110929518A (zh) 2020-03-27
CN110929518B CN110929518B (zh) 2023-08-04

Family

ID=69857635

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911248256.3A Active CN110929518B (zh) 2019-12-09 2019-12-09 一种使用重叠拆分规则的文本序列标注算法

Country Status (1)

Country Link
CN (1) CN110929518B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112527992A (zh) * 2020-12-17 2021-03-19 科大讯飞股份有限公司 长文本处理方法、相关设备及可读存储介质
CN114499906A (zh) * 2020-11-12 2022-05-13 清华大学 一种dga域名检测方法及系统
CN116303297A (zh) * 2023-05-25 2023-06-23 深圳市东信时代信息技术有限公司 文件压缩处理方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110295903A1 (en) * 2010-05-28 2011-12-01 Drexel University System and method for automatically generating systematic reviews of a scientific field
CN103201707A (zh) * 2010-09-29 2013-07-10 触摸式有限公司 用于向电子设备输入文本的文本预测引擎、系统及方法
CN107247700A (zh) * 2017-04-27 2017-10-13 北京捷通华声科技股份有限公司 一种添加文本标注的方法及装置
CN108717409A (zh) * 2018-05-16 2018-10-30 联动优势科技有限公司 一种序列标注方法及装置
CN110532563A (zh) * 2019-09-02 2019-12-03 苏州美能华智能科技有限公司 文本中关键段落的检测方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110295903A1 (en) * 2010-05-28 2011-12-01 Drexel University System and method for automatically generating systematic reviews of a scientific field
CN103201707A (zh) * 2010-09-29 2013-07-10 触摸式有限公司 用于向电子设备输入文本的文本预测引擎、系统及方法
CN107247700A (zh) * 2017-04-27 2017-10-13 北京捷通华声科技股份有限公司 一种添加文本标注的方法及装置
CN108717409A (zh) * 2018-05-16 2018-10-30 联动优势科技有限公司 一种序列标注方法及装置
CN110532563A (zh) * 2019-09-02 2019-12-03 苏州美能华智能科技有限公司 文本中关键段落的检测方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114499906A (zh) * 2020-11-12 2022-05-13 清华大学 一种dga域名检测方法及系统
CN112527992A (zh) * 2020-12-17 2021-03-19 科大讯飞股份有限公司 长文本处理方法、相关设备及可读存储介质
CN112527992B (zh) * 2020-12-17 2023-01-17 科大讯飞股份有限公司 长文本处理方法、相关设备及可读存储介质
CN116303297A (zh) * 2023-05-25 2023-06-23 深圳市东信时代信息技术有限公司 文件压缩处理方法、装置、设备及介质
CN116303297B (zh) * 2023-05-25 2023-09-29 深圳市东信时代信息技术有限公司 文件压缩处理方法、装置、设备及介质

Also Published As

Publication number Publication date
CN110929518B (zh) 2023-08-04

Similar Documents

Publication Publication Date Title
CN109271626B (zh) 文本语义分析方法
CN108304468B (zh) 一种文本分类方法以及文本分类装置
JP5936698B2 (ja) 単語意味関係抽出装置
CN106202010A (zh) 基于深度神经网络构建法律文本语法树的方法和装置
Suleiman et al. The use of hidden Markov model in natural ARABIC language processing: a survey
CN106610951A (zh) 改进的基于语义分析的文本相似度求解算法
Gokul et al. Sentence similarity detection in Malayalam language using cosine similarity
WO2008107305A2 (en) Search-based word segmentation method and device for language without word boundary tag
Rahimi et al. An overview on extractive text summarization
US11170169B2 (en) System and method for language-independent contextual embedding
Jabbar et al. An improved Urdu stemming algorithm for text mining based on multi-step hybrid approach
CN112966525B (zh) 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法
Dashtipour et al. Extending persian sentiment lexicon with idiomatic expressions for sentiment analysis
CN110929518A (zh) 一种使用重叠拆分规则的文本序列标注算法
Mahmoud et al. A text semantic similarity approach for Arabic paraphrase detection
Pandey et al. An unsupervised Hindi stemmer with heuristic improvements
Moeng et al. Canonical and surface morphological segmentation for nguni languages
Cing et al. Improving accuracy of part-of-speech (POS) tagging using hidden markov model and morphological analysis for Myanmar Language
CN109189820A (zh) 一种煤矿安全事故本体概念抽取方法
Singh et al. Writing Style Change Detection on Multi-Author Documents.
Al-Azzawy et al. Arabic words clustering by using K-means algorithm
Momtaz et al. Graph-based Approach to Text Alignment for Plagiarism Detection in Persian Documents.
Fahrni et al. HITS'Monolingual and Cross-lingual Entity Linking System at TAC 2013.
Das et al. The 5w structure for sentiment summarization-visualization-tracking
Fatima et al. New graph-based text summarization method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant