CN110929518A - 一种使用重叠拆分规则的文本序列标注算法 - Google Patents
一种使用重叠拆分规则的文本序列标注算法 Download PDFInfo
- Publication number
- CN110929518A CN110929518A CN201911248256.3A CN201911248256A CN110929518A CN 110929518 A CN110929518 A CN 110929518A CN 201911248256 A CN201911248256 A CN 201911248256A CN 110929518 A CN110929518 A CN 110929518A
- Authority
- CN
- China
- Prior art keywords
- entity
- text
- model
- sequence labeling
- overlap
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供了一种使用重叠拆分规则的文本序列标注算法,经验上,完成一个基于深度学习的序列标注任务模型,在训练阶段,其最大序列长度固定为有限值;而在预测阶段,自然文本序列长度常常超过模型最大序列长度,此时会造成模型的F1值降低。采用重叠拆分规则方式,对于待预测文本长度超过模型最大序列长度时,将超长文本拆分为若干不大于最大序列长度的子序列,各个子序列之间设置重叠区域,即重叠拆分处理。重叠拆分方式规则能够适用于不同类型的特征抽取器模型,可以在一定程度上提升模型预测效果,同时对于RNN特征抽取器,可以大幅度提升处理效率,在我们已完成的序列标注任务工程上有广泛的、非常好的应用。
Description
技术领域
本发明属于自然语言处理领域,特别涉及自然语言的序列标注算法,如分词、词性标注、命名实体识别等,进一步地涉及一种使用重叠拆分规则的文本序列标注算法。
背景技术
人类社会的知识和信息大多以人类创造的语言文字的形式进行记录,计算机可以方便快捷的对文本进行存储和记录。但是,计算机仅能传递、保存信息,无法直接识别、理解、运用语言文字。自然语言处理就是一种处理人类自然语言文本的算法技术。
其中,分词(Words Segmentation)、词性标注(POS Tagging)和命名实体识别(Named Entity Recognition)是自然语言处理的基础任务。
1)、分词,将一句话(字的序列)分割成词的序列。如句子“张某某目前任职于水利局。”,被分解成“张某某”,“目前”,“任职”,“于”,“水利局”,“。”。
2)、词性标注,为每一个词赋予一个词性。如名词、动词、形容词等。如前例中,“张某某”、“水利局”是名词,“目前”是副词,“任职”是动词,“于”是介词,“。”是标点符号。
3)、命名实体识别,提取文中特定类型的词汇实体。如文中的“张某某”(类型:人名),“水利局”(类型:机构)等,其余文字不是实体。
分词、词性标注、命名实体识别都可以被转化为序列标注(Sequence Labeling)问题。序列标注通过为每一个单元(字或词,英文为token)赋予一个标签,从而达到分块和分类的目的。最常用的标签方式有(BIEOS)标签等,如:
1)、分词,“张(B)小(I)川(E)目(B)前(E)任(B)职(E)于(S)水(B)利(I)局(E)。(B)”,其中的B代表开始(Begin),I代表中间(Inside),E代表结尾(End),S代表单字成词或实体 (Single),出现B或S的地方即为边界,通过对B、S、E标签标识出的边界,就可以提取出词汇:“张某某”,“目前”,“任职”,“于”,“水利局”,“。”。
2)、词性标注,“张(B-NR)小(I-NR)川(E-NR)目(B-ADV)前(E-ADV)任(B-V)职(E-V)于(S-PREP)水(B-NG)利(I-NG)局(E-NG)。(B-WJ)”,其中B-NR中的B代表边界,NR代表类别,这里表示人名。这种方式既区分了边界又标识了类别,即词性。
3)、实体识别,“张(B-Person)小(I-Person)川(E-Person)目(O)前(O)任(O)职(O)于(O) 水(B-Organiztion)利(I-Organiztion)局(E-Organiztion)。(O)”,跟词性标注类似,只是多了一个标签O,表示Outside,表示不是任务所关注的类别。通过对标签进行处理,就可以提取出实体:“张某某”(类型:Person)、“水利局”(类型:Time)。
序列标注任务目前最流行的算法是“深度学习模型+CRF”:
1)模型部分。如在序列标注中目前最为经典的BI-LSTM-CRF模型中的BI-LSTM,指双向的LSTM循环神经网络,是一种深度学习模型,其任务是为每一个单元,这里以字为例,所属的各种类别分配一个分数,相当于对每一个字执行分类任务。如图1所示,“张”字对应一个7维向量,其中第“B-Person”维分数最高,说明这个字对应这个类别的概率越高,即把“张”字划分为“B-Person”类别。Bi-LSTM可以被替换成其他的模型,如Bi-GRU,多层CNN,多层BI-LSTM,Transformer等各种常见特征抽取器。
2)CRF部分,这里特指Linear Chain CRF(Conditional Random Field),它是一种概率图模型。在这里的主要作用是对标签之间的关系做优化,找出概率最大的一个标签序列(一般使用Viterbi算法进行解码)。如B-Person标签后面不可能跟I-Orgnization标签,而跟I-Person标签的可能性更高。经过CRF层的优化,序列标注精度得以提升。值得一提的是,随着技术的发展,2018年谷歌研发了性能更强的BERT模型 (https://arxiv.org/pdf/1810.04805),它采用Transformer作为特征抽取器,模型表达能力很强,很大程度上可以克服如B-Person标签后面跟随I-Orgnization标签的问题,因此, CRF部分可以去掉。该算法的主要流程如图2所示。序列标注任务的模型训练指标,主要采用F1值进行评价,它权衡了预测的精确率和召回率。
以上序列标注模型的系统输入是句子序列,而句子序列则存在一定的固有分布。据统计,在中文里,句子的长度分配比例大致符合Poisson分布,结果如表1所示。
表1句子长度和字数占比
从表1中可以看出,在大量的互联网新闻文本中,句子长度超过100字的个数占比为 1.5%,这些句子包含的汉字个数占比为6.2%,该统计考虑了互联网文本由于使用HTML格式,造成了若干无标点文本误组成的超长文本。
现有技术是一种有监督的机器学习算法,在训练阶段有数以百万至上亿的参数需要进行拟合调优。参数量过大或过小会带来各种问题,模型训练必须对序列最大长度、模型层数、特征维度等超参数做出控制。
其中,模型训练的序列最大长度对模型的性能和效果影响巨大。例如,在训练模型阶段,选取序列最大长度为100个token,例如,示例句子“张某某目前任职于水利局,他曾经主管负责过市河道水利工程......”的最大长度不超过100个字。然而,如表1所示,在模型的预测使用阶段,句子的长度有一定比例会超过100个token,对于超长句子,不同的模型有不同的处理方式。RNN、LSTM、GRU等循环神经网络特征抽取器由于满足自回归,可以直接方便地处理超长序列;而CNN、Transformer等特征抽取器,一般情况下,需要对序列做强制截断处理。
各类特征抽取器对于超长序列均存在效果下降的问题。
1、对于RNN、LSTM、GRU等循环神经网络特征抽取器,问题在于,模型训练仅训练了最大序列长度范围内的序列特征,而对超出部分,预测效果(主要指F1值)会随着长度的增加缓慢下降。
例如:
句1:张某某目前任职于水(8)利(9)局(10)。
句2:北京市政府出台了一系列措施,用于改善市区的便民设施情况;其中,一项很重要的工作就是居民的用水安全和用水便捷程度;这样的工作繁琐而细碎,需要消耗大量的人力物力;不过,北京市水利局却有办法解决这个问题,原因在于,张某某曾经在水(111)利(112)局(113)担任局长。
以上两句子中,“水利局”指待识别的机构名称(Organization),括号中数字表示该字在句子中的索引位置,即句1中,第8个字至第10个字为“水利局”,句2同理。将以上两句子输入已训练好的模型,假设模型规定最大序列长度为100,第一句由于索引位置在最大序列长度100字范围内,第二句中“水利局”三个字位置超过100字,故第一句预测准确“水利局(Organization)”的概率要高于第二句。
此外,由于循环神经网络固有的自回归特性,需循环迭代;若句子长度超长,将耗费大量时间,这在工程上是不允许的。
2、对于CNN、Transformer等特征抽取器,强制截断会直接导致效果降低。相反,若为模型设计较大的最大序列长度,会导致模型过大,计算空间效率低下。
例如:
句1:......张某某目前任职于水(99)利(100)局(101)。...
句2:......张某某目前任职于水(99)利(100)
句3:局(1)。...
将句1强制拆分后的结果为句2和句3,这样,“水利局”实体被强制拆分在两个分句中,则预测结果一定是错误的。
发明内容
为了解决上述处理序列标注任务中的超长句子时存在的技术难题,本发明提供了一种方法,能够适用于各类序列标注任务的、适用于不同类型的特征抽取器的经验性规则,可以在一定程度上提升超长句子序列的模型预测效果,同时对于RNN等循环神经网络,可以大幅度提升处理效率,在工程上有非常好的应用,为一种使用重叠拆分规则的文本序列标注算法,具体的技术方案为:采用拆分方法具体为:
(1)训练完成一个基于深度学习的序列标注任务模型后,在预测阶段,对于待预测文本长度超过模型最大序列长度时,将超长文本拆分为若干不大于最大序列长度的子序列,各个子序列之间设置重叠区域;
(2)获得的若干子序列可以通过并行的方式使用模型做预测,将得到的序列结果按照一套通用的经验规则做拼接合并,即得到最终的超长文本的序列标注结果。
作为改进,上述文本序列标注算法适用于针对分词、词性标注、命名实体识别三种任务中任一种或者至少两种的组合。
作为改进,方法(1)的重叠区域预测结果中,存在当一个实体或词汇包含另一个实体或词汇的关系,且都有实体或词汇取到截断边界时,则直接合并,取较长的实体或词汇。
作为改进,方法(1)的重叠区域预测结果中,仅有一个句子的重叠部分有实体或词汇取到截断边界时,则去掉该实体或词汇,然后进行合并。
作为改进,方法(1)的重叠区域预测结果中,当针对命名实体识别任务时,若一边有实体标签、而另一边为空标签时,以有实体的一侧为准进行合并。
作为改进,所述空标签为O标签。
作为改进,方法(1)的重叠区域预测结果中,当实体或词汇结构没有包含关系,只有部分重叠时,取并集。
作为改进,当实体或词汇类型不一致时,取相对靠后的部分的标签类别。
有益效果:本发明提供的一种使用重叠拆分规则的文本序列标注算法,能够适用于各类序列标注任务的、适用于不同类型的特征抽取器的规则,可以在一定程度上提升超长文本序列的模型预测效果,同时对于RNN等循环神经网络,可以大幅度提升处理效率,在我们完成的序列标注任务工程上有广泛的、非常好的应用。
附图说明
图1为现有技术中BI-LSTM-CRF模型的主要流程示意图。
图2为现有技术中序列标注模型的主要流程示意图。
图3为本发明中使用重叠拆分规则的文本序列标注算法的示意图。
具体实施方式
下面对本发明附图结合实施例作出详细说明。
以下针对本发明的具体实施例进行详细说明。
(1)对于有标点符号的句子,按照标点符号进行分割,如“,”、“。”、“;”等等。将分割后的句子输入模型进行预测,最后将结果进行拼接。经验上,序列标注任务往往需要按标点做分句处理,但本专利实施时可以跨过该步,直接进行重叠拆分。
(2)对于没有分隔符号的句子,且长度依然超过最大序列训练长度时,则需要设置重叠区域,进行重叠拆分。设置重叠区域的目的在于确保断句的地方也能被正确识别。
实施例1
重叠拆分:假设最大句子长度为10,重叠部分长度是3,则可将以下句子分割得到若干短句。
例句1:其中一项很重要的工作就是居民的用水安全和用水便捷程度,见表2。
表2例句1进行重叠拆分的案例示范
其 | 中 | 一 | 项 | 很 | 重 | 要 | 的 | 工 | 作 | 就 | 是 | 居 | 民 | 的 | 用 | 水 | 安 | 全 | 。 |
其 | 中 | 一 | 项 | 很 | 重 | 要 | 的 | 工 | 作 | ||||||||||
的 | 工 | 作 | 就 | 是 | 居 | 民 | 的 | 用 | 水 | ||||||||||
的 | 用 | 水 | 安 | 全 | 。 |
由此,进行拆分后变为上述四个分句,可以得到均满足模型最大序列长度的句子,这样可以解决循环神经网络处理速度过慢的问题。
将上述分句使用训练好的序列标注模型进行预测,得到各个分句的预测标签结果。将各个分句的结果标签按规则合并,即得到最终的超长文本序列标签,具体规则为(以BIEOS标注标准为例):
当一个实体或词汇包含另一个实体或词汇,若两个句子的重叠部分中,都有实体或词汇取到截断边界即出现B、E、S标签,则直接合并,取较长的实体或词汇。这可针对分词、词性标注、命名实体识别三种任务。
实施例2
描述:一个实体(或词汇)包含另一个实体(或词汇),即存在包含关系。
若两个句子的重叠部分中,都有实体(或词汇)取到截断边界(B、E、S标签),则直接合并,取较长的实体(或词汇)。这可针对分词、词性标注、命名实体识别三种任务。(1)如下例2命名实体识别结果,“贵阳市大数据中心”复盖了“大数据中心”,取较长实体“贵阳市大数据中心”,见表3。
表3例2进行重叠拆分的案例示范
Token | 重叠部分1 | 重叠部分2 |
贵 | O | |
州 | O | |
在 | O | |
贵 | B-Organization | O |
阳 | I-Organization | O |
市 | I-Organization | O |
大 | I-Organization | B-Organization |
数 | I-Organization | I-Organization |
据 | I-Organization | I-Organization |
中 | I-Organization | I-Organization |
心 | E-Organization | E-Organization |
设 | O | O |
立 | O | |
了 | O | |
咨 | O |
(2)如下例3分词结果,其中,“贵阳市”复盖了“贵阳”和“市”,取较长词汇“贵阳市”,词性标注消解方案同分词一致:
表4例3进行重叠拆分的案例示范
Token | 重叠部分1 | 重叠部分2 |
贵 | B | |
州 | E | |
在 | S | |
贵 | B | B |
阳 | I | E |
市 | E | S |
大 | B | B |
数 | I | I |
据 | E | E |
中 | B | B |
心 | E | E |
设 | B | |
立 | E | |
了 | S | |
咨 | B |
若两个句子的重叠部分中,仅有一个句子的重叠部分有实体或词汇取到截断边界即出现B、E、S标签,则去掉该实体或词汇,然后进行合并。
实施例3
若两个句子的重叠部分中,仅有一个句子的重叠部分有实体(或词汇)取到截断边界(B、E、S标签),则去掉该实体(或词汇),然后进行合并。
(1)如下例4命名实体识别结果:“政”字和“市”字分别是两个重叠部分的起始字符和末尾字符,其中一个有实体,另一个没有,则需要先将“政府采购网”这个完整实体忽略,然后进行合并。
表5例4进行重叠拆分的案例示范
Token | 重叠部分1 | 重叠部分2 |
贵 | B-Organization | |
州 | I-Organization | |
省 | I-Organization | |
政 | I-Organization | B-Organization |
府 | I-Organization | I-Organization |
采 | I-Organization | I-Organization |
购 | I-Organization | I-Organization |
网 | E-Organization | E-Organization |
、 | O | O |
贵 | O | B-Organization |
阳 | O | I-Organization |
市 | O | I-Organization |
政 | I-Organization | |
府 | I-Organization | |
采 | I-Organization | |
购 | I-Organization | |
网 | E-Organization |
(2)如下例5分词结果,“府”字对应“E”标签和“S”标签,即其中一个部分中取到截断边界,而另外一个则与其他字构成词,则需要先将“府”-“S”这个完整成词忽略,然后进行合并。词性标注策略与分词完全一致:
表6例5进行重叠拆分的案例示范
当针对命名实体识别任务时,若一边有实体标签、而另一边为空标签(如O标签),以有实体的一侧为准。
实施例4
针对命名实体识别,还有一种特殊情况,即一边有实体标签、而另一边没有(即O标签)。分词和词性标注不存在此种情况。若两个句子的重叠部分中,一个有实体,另一个空白标签(即O标签),以有实体的一侧为准。
如下例6命名实体识别结果,重叠部分中一边有实体标签,而另一边由于截断造成“O”标签,则以有实体为准进行合并:
表7例6进行重叠拆分的案例示范
实体或词汇结构有重叠,没有包含关系,即只有部分重叠时,有重叠时,一般规则是取并集,且当实体类型不一致时,取相对靠后的部分的标签类别,词性标注同理。同时分词不存在类别标签的问题。
实施例5
实体(或词汇)结构有重叠,没有包含关系,即只有部分重叠时,有重叠时,一般规则是取并集,且当实体类型不一致时,取相对靠后的部分的标签类别。词性标注同理。分词不存在类别标签的问题。
(1)如下例7命名实体识别结果:“京”字和“通”字分别是两个截断部分的首字和末字,按照规则的定义,需要先将“北京万通”这个实体的类型忽略掉,然后再对这两个重叠部分进行合并,得到最终的结果。
表8例7进行重叠拆分的案例示范
Token | 重叠部分1 | 重叠部分2 |
于 | O | |
北 | B-Organization | B-Company |
京 | I-Organization | I-Company |
万 | I-Organization | I-Company |
通 | E-Organization | I-Company |
互 | I-Company | |
联 | I-Company | |
科 | I-Company | |
技 | I-Company | |
有 | I-Company | |
限 | I-Company | |
公 | I-Company | |
司 | E-Company |
(2)如下例8分词结果:两个重叠部分的结果分别是“万通互”字和“通互联”,按照算法的定义,直接对这两个重叠部分进行合并,得到最终的结果,不存在类型标签的问题。
表9例8进行重叠拆分的案例示范
(3)如下例9词性标注结果:两个重叠部分的结果分别是“万通互”字和“通互联”,按照规则的定义,将两个类型标签取一致,即都取专有名词类“NP”,然后对这两个重叠部分进行合并,得到最终的结果。
表10例9进行重叠拆分的案例示范
Token | 重叠部分1 | 重叠部分2 |
于 | S-PREP | |
北 | B-NL | |
京 | E-NL | |
万 | B-NR | |
通 | I-NR | B-NP |
互 | E-NR | I-NP |
联 | E-NP | |
科 | B-N | |
技 | E-N | |
有 | B-ADJ | |
限 | E-ADJ | |
公 | B-N | |
司 | E-N |
根据以上规则分析,可知,上述规则适用性广,可以适应常见的序列标注任务,可涵盖大部分重叠拆分造成的标签不一致情况。且该套方法直接寻找模型输出端结果,处理速度快。
同时,本发明在5000万字标注了分词、词性、实体的新闻舆情数据中进行命名实体识别模型训练和测试,词性包括22种中文词性类别,实体包括人名(Person)、机构(Orgnization)和公司(Company)三种类别。使用模型是Bi-LSTM-CRF模型,由于该重叠拆分算法与特征抽取器无关、也与CRF层无关,故将其替换为其它模型如 CNN,Transformer等,同样适用。
模型的最大序列长度为100字,在不采用该重叠拆分的算法时,命名实体识别模型在测试集上的F1值达到了94.6%,预测速度平均为46000字每秒,且由于文本句子长度变化较大,实际工程当中,最长的带预测文本长度达到了1000余字,预测耗时不稳定。
在采用该重叠拆分算法后,模型在测试集的F1值为95.3%,在同等资源配置情况下,预测速度平均为160000字每秒,且由于重叠拆分,句子最大长度固定,预测耗时非常稳定。
由于CNN、Transformer等类型特征抽取器的预测损失主要来自于截断损失,一种直接的处理方式是强制拆分,另一种是本发明算法重叠拆分。针对上述同样的训练和测试数据集,使用基于Bert(使用了Transformer,最大序列长度为100)的命名实体识别模型进行试验。在使用强制拆分时,在测试集上F1值达到了96.8%;而使用了重叠拆分的模型在测试集上F1值取得97.4%。这证明,重叠拆分优于强制拆分。重叠拆分规则在实际的工程的分词、词性标注、命名实体识别任务上均有使用,且效果非常理想。
同理,重叠拆分算法在依据上述标注数据基础上,完成的分词和词性标注任务上有同样的效果提升,实验数据汇总如下:
表11重叠拆分算法的实验数据
根据以上重叠拆分技术方案,可以得出结论,由于将超长句子进行拆分,然后依据经验规则合并,必然会造成某些实体被误识别。从这一点上看,该方案会带来一定效果损失,记该损失为rule_loss;同时,由于该方案避免了超长句子超过模型训练长度,模型拟合能力下降,实际上对预测能力有一定提升,该提升记作max_length_improve。记不采用该技术方案的F1值为orig_f1,则可得,采用该技术方案之后的F1值为new_f1=orig_f1-rule_loss-max_length_improve。从上述结果上看,采用重叠拆分算法后,规则带来的损失小于直接预测超长句子的损失,从而带来了效果提升。与此同时,还在分词任务和词性标注任务上做了试验,模型在超长文本序列的处理上均有提升。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (8)
1.一种使用重叠拆分规则的文本序列标注算法,其特征在于:采用拆分方法具体为:
(1)训练完成一个基于深度学习的序列标注任务模型后,在预测阶段,对于待预测文本长度超过模型最大序列长度时,将超长文本拆分为若干不大于最大序列长度的子序列,各个子序列之间设置重叠区域;
(2)获得的若干子序列可以通过并行的方式使用模型做预测,将得到的序列结果按照一套通用的经验规则做拼接合并,即得到最终的超长文本的序列标注结果。
2.一种根据权利要求1所述的使用重叠拆分规则的文本序列标注算法,其特征在于:所述算法适用于针对分词、词性标注、命名实体识别三种任务。
3.根据权利要求1所述的一种使用重叠拆分规则的文本序列标注算法,其特征在于:方法(1)的重叠区域中,存在当一个实体或词汇包含另一个实体或词汇的关系,且都有实体或词汇取到截断边界时,则直接合并,取较长的实体或词汇。
4.根据权利要求1所述的一种使用重叠拆分规则的文本序列标注算法,其特征在于:方法(1)的重叠区域预测结果中,仅有一个句子的重叠部分有实体或词汇取到截断边界时,则去掉该实体或词汇,然后进行合并。
5.根据权利要求1所述的一种使用重叠拆分规则的文本序列标注算法,其特征在于:方法(1)的重叠区域预测结果中,当针对命名实体识别任务时,若一边有实体标签、而另一边为空标签时,以有实体的一侧为准进行合并。
6.根据权利要求5所述的一种使用重叠拆分规则的文本序列标注算法,其特征在于:所述空标签为O标签。
7.根据权利要求1所述的一种使用重叠拆分规则的文本序列标注算法,其特征在于:方法(1)的重叠区域预测结果中,当实体或词汇结构没有包含关系,只有部分重叠时,取并集。
8.根据权利要求7所述的一种使用重叠拆分规则的文本序列标注算法,其特征在于:当实体或词汇类型不一致时,取相对靠后的部分的标签类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911248256.3A CN110929518B (zh) | 2019-12-09 | 2019-12-09 | 一种使用重叠拆分规则的文本序列标注算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911248256.3A CN110929518B (zh) | 2019-12-09 | 2019-12-09 | 一种使用重叠拆分规则的文本序列标注算法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110929518A true CN110929518A (zh) | 2020-03-27 |
CN110929518B CN110929518B (zh) | 2023-08-04 |
Family
ID=69857635
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911248256.3A Active CN110929518B (zh) | 2019-12-09 | 2019-12-09 | 一种使用重叠拆分规则的文本序列标注算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110929518B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112527992A (zh) * | 2020-12-17 | 2021-03-19 | 科大讯飞股份有限公司 | 长文本处理方法、相关设备及可读存储介质 |
CN114499906A (zh) * | 2020-11-12 | 2022-05-13 | 清华大学 | 一种dga域名检测方法及系统 |
CN116303297A (zh) * | 2023-05-25 | 2023-06-23 | 深圳市东信时代信息技术有限公司 | 文件压缩处理方法、装置、设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110295903A1 (en) * | 2010-05-28 | 2011-12-01 | Drexel University | System and method for automatically generating systematic reviews of a scientific field |
CN103201707A (zh) * | 2010-09-29 | 2013-07-10 | 触摸式有限公司 | 用于向电子设备输入文本的文本预测引擎、系统及方法 |
CN107247700A (zh) * | 2017-04-27 | 2017-10-13 | 北京捷通华声科技股份有限公司 | 一种添加文本标注的方法及装置 |
CN108717409A (zh) * | 2018-05-16 | 2018-10-30 | 联动优势科技有限公司 | 一种序列标注方法及装置 |
CN110532563A (zh) * | 2019-09-02 | 2019-12-03 | 苏州美能华智能科技有限公司 | 文本中关键段落的检测方法及装置 |
-
2019
- 2019-12-09 CN CN201911248256.3A patent/CN110929518B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110295903A1 (en) * | 2010-05-28 | 2011-12-01 | Drexel University | System and method for automatically generating systematic reviews of a scientific field |
CN103201707A (zh) * | 2010-09-29 | 2013-07-10 | 触摸式有限公司 | 用于向电子设备输入文本的文本预测引擎、系统及方法 |
CN107247700A (zh) * | 2017-04-27 | 2017-10-13 | 北京捷通华声科技股份有限公司 | 一种添加文本标注的方法及装置 |
CN108717409A (zh) * | 2018-05-16 | 2018-10-30 | 联动优势科技有限公司 | 一种序列标注方法及装置 |
CN110532563A (zh) * | 2019-09-02 | 2019-12-03 | 苏州美能华智能科技有限公司 | 文本中关键段落的检测方法及装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114499906A (zh) * | 2020-11-12 | 2022-05-13 | 清华大学 | 一种dga域名检测方法及系统 |
CN112527992A (zh) * | 2020-12-17 | 2021-03-19 | 科大讯飞股份有限公司 | 长文本处理方法、相关设备及可读存储介质 |
CN112527992B (zh) * | 2020-12-17 | 2023-01-17 | 科大讯飞股份有限公司 | 长文本处理方法、相关设备及可读存储介质 |
CN116303297A (zh) * | 2023-05-25 | 2023-06-23 | 深圳市东信时代信息技术有限公司 | 文件压缩处理方法、装置、设备及介质 |
CN116303297B (zh) * | 2023-05-25 | 2023-09-29 | 深圳市东信时代信息技术有限公司 | 文件压缩处理方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110929518B (zh) | 2023-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109271626B (zh) | 文本语义分析方法 | |
CN108304468B (zh) | 一种文本分类方法以及文本分类装置 | |
JP5936698B2 (ja) | 単語意味関係抽出装置 | |
CN106202010A (zh) | 基于深度神经网络构建法律文本语法树的方法和装置 | |
Suleiman et al. | The use of hidden Markov model in natural ARABIC language processing: a survey | |
CN106610951A (zh) | 改进的基于语义分析的文本相似度求解算法 | |
Gokul et al. | Sentence similarity detection in Malayalam language using cosine similarity | |
WO2008107305A2 (en) | Search-based word segmentation method and device for language without word boundary tag | |
Rahimi et al. | An overview on extractive text summarization | |
US11170169B2 (en) | System and method for language-independent contextual embedding | |
Jabbar et al. | An improved Urdu stemming algorithm for text mining based on multi-step hybrid approach | |
CN112966525B (zh) | 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法 | |
Dashtipour et al. | Extending persian sentiment lexicon with idiomatic expressions for sentiment analysis | |
CN110929518A (zh) | 一种使用重叠拆分规则的文本序列标注算法 | |
Mahmoud et al. | A text semantic similarity approach for Arabic paraphrase detection | |
Pandey et al. | An unsupervised Hindi stemmer with heuristic improvements | |
Moeng et al. | Canonical and surface morphological segmentation for nguni languages | |
Cing et al. | Improving accuracy of part-of-speech (POS) tagging using hidden markov model and morphological analysis for Myanmar Language | |
CN109189820A (zh) | 一种煤矿安全事故本体概念抽取方法 | |
Singh et al. | Writing Style Change Detection on Multi-Author Documents. | |
Al-Azzawy et al. | Arabic words clustering by using K-means algorithm | |
Momtaz et al. | Graph-based Approach to Text Alignment for Plagiarism Detection in Persian Documents. | |
Fahrni et al. | HITS'Monolingual and Cross-lingual Entity Linking System at TAC 2013. | |
Das et al. | The 5w structure for sentiment summarization-visualization-tracking | |
Fatima et al. | New graph-based text summarization method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |