CN107818079A - 多粒度分词标注数据自动获取方法及系统 - Google Patents

多粒度分词标注数据自动获取方法及系统 Download PDF

Info

Publication number
CN107818079A
CN107818079A CN201710791701.5A CN201710791701A CN107818079A CN 107818079 A CN107818079 A CN 107818079A CN 201710791701 A CN201710791701 A CN 201710791701A CN 107818079 A CN107818079 A CN 107818079A
Authority
CN
China
Prior art keywords
granularity
participle
labeled data
sentence
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710791701.5A
Other languages
English (en)
Inventor
李正华
张民
龚晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201710791701.5A priority Critical patent/CN107818079A/zh
Publication of CN107818079A publication Critical patent/CN107818079A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Abstract

本发明涉及一种多粒度分词标注数据自动获取方法及系统,为了能够准确、快速、自动的获得多粒度分词标注数据而设计。本发明选择n种不同规范的单粒度分词标注数据集,将至少一种单粒度分词标注数据集中的句子分别转化为遵守其他n‑1种分词规范的分词序列,被转化后的句子对应的n种不同规范的分词序列为该句子的多粒度分词结果;合并每一个句子的多粒度分词结果,形成多粒度分词标注数据集。本发明首次提出了多粒度分词的概念;使用耦合序列标注模型进行不同规范间单粒度分词标注数据的转换,从而获取多粒度分词标注数据。

Description

多粒度分词标注数据自动获取方法及系统
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种多粒度分词标注数据 自动获取方法及系统。
背景技术
传统的分词任务都为单粒度分词任务,即一个连续的字序列只能按照一种 特定的分词规范切分为唯一一个词序列。同时,现有的人工标注分词标注数据 也都为单粒度分词标注数据。因此,国内外尚不存在多粒度分词标注数据。
单粒度分词结果为一个词序列结构。单粒度分词标注数据严格按照某一种 特定的标注规范,经过人工标注得到。存在两个问题:(1)不同人对于词语的 认识不同,即使通过学习标注规范,仍然会有分歧,导致标注不一致。(2)基 于单粒度分词标注数据的单粒度分词任务,无法满足实际应用的需求。有的应 用同时需要不同粒度的分词结果,从而产生更好的结果。
有了多粒度分词标注数据,才能有效训练多粒度分词模型。由于现有的分 词标注数据都为单粒度分词标注数据,且目前尚未出现多粒度分词标注数据的 获取方法,因此,若要获得多粒度分词标注数据,一种方法是通过人工标注的 方法完成。然而人工标注的方法存在以下几个缺点:(1)制定多粒度分词标注 规范的难度非常大,显然比制定一个单粒度分词标注规范更困难。(2)对标注 者的要求更高,需要标注者学习一个更复杂的标注规范。(3)标注过程更复杂, 标注结果从序列结构,变成层次结构。总之,人工标注多粒度分词标注数据的 人力和时间成本非常高。
有鉴于上述的缺陷,本设计人积极加以研究创新,以期创设一种多粒度分 词标注数据自动获取方法及系统,使其更具有产业上的利用价值。
发明内容
为解决上述技术问题,本发明的目的是提供一种利用机器学习的方式自动 获取句子的多粒度分词结果,进而经获取的多粒度分词结果合并形成多粒度分 词标注数据的多粒度分词标注数据自动获取方法及系统。
为达到上述发明目的,本发明多粒度分词标注数据自动获取方法,包括:
选择n种不同规范的单粒度分词标注数据集,其中n≥2,且n为正整数;
将至少一种单粒度分词标注数据集中的句子分别转化为遵守其他n-1种分 词规范的分词序列,被转化后的句子对应的n种不同规范的分词序列为该句子 的多粒度分词结果;
合并每一个句子的多粒度分词结果,形成多粒度分词标注数据集。
进一步地,还包括:将每一个句子对应的多粒度分词结果转化为多粒度分词 层次结构,所述的多粒度分词层次结构各层分别为句子、不能进一步与其他词 语合并成更粗粒度的词语、词语、字。
进一步地,还包括:检查所述多粒度分词层次结构中词语是否存在交叉, 若存在交叉,则进行人工校正。
进一步地,将一种单粒度分词标注数据集中的句子转化为遵守其他分词规 范的分词序列过程中,首先,将单粒度分词标注数据集中的句子划分出train 数据、dev数据、test数据三类数据,然后,三类数据分别转化为遵守其他分 词规范的分词序列。
进一步地,采用基于异构标注数据的快速序列标注方法将一种单粒度分词 标注数据集中的句子转化为遵守其他分词规范的分词序列。
进一步地,将至少两种单粒度分词标注数据集中的句子分别转化为遵守其 他n-1种分词规范的分词序列。
为达到上述发明目的,本发明多粒度分词标注数据自动获取系统,包括:
分词规范选择单元,用于选择n种不同规范的单粒度分词标注数据集,其 中n≥2,且n为正整数;
句子规范转换单元,用于将至少一种单粒度分词标注数据集中的句子分别 转化为遵守其他n-1种分词规范的分词序列,被转化后的句子对应的n种不同 规范的分词序列为该句子的多粒度分词结果;
分词序列合并单元,用于合并每一个句子的多粒度分词结果,形成多粒度 分词标注数据集。
进一步地,还包括层次结构生成单元,用于将每一个句子对应的多粒度分 词结果转化为多粒度分词层次结构,所述的多粒度分词层次结构各层分别为句 子、不能进一步与其他词语合并成更粗粒度的词语、词语、字。
进一步地,纠错单元,用于检查所述多粒度分词层次结构中词语是否存在 交叉。
借由上述方案,本发明多粒度分词标注数据自动获取方法及系统至少具有 以下优点:
第一,本发明充分利用已有的单粒度分词人工标注数据,进行两两转化, 从而获得多粒度分词标注数据;
第二,本发明多粒度分词层次结构表示,可以表示出句子中不同粒度的词 语,更好地服务上层应用。比如,粗粒度的词语能够抽取细致的特征,提供更 多上下文和更全面准确的信息,进行更精确的匹配;细粒度的词语能表达更基 本的信息,从而缓解统计机器学习方法面临的数据稀疏问题。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术 手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附 图详细说明如后。
附图说明
图1是本发明多粒度分词标注数据自动获取方法的实施例1的句子的多粒 度分词层次结构;
图2是本发明多粒度分词标注数据自动获取方法的实施例2的句子的多粒 度分词层次结构;
图3是本发明多粒度分词标注数据自动获取方法的实施例2的句子的多粒 度分词层次结构;
图4是本发明多粒度分词标注数据自动获取方法的3种不同规范的单粒度 分词标注数据集中的句子相互转化的示意图;
图5是本发明多粒度分词标注数据自动获取方法的不同规范的单粒度分词 标注数据集中的句子相互转化的示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以 下实施例用于说明本发明,但不用来限制本发明的范围。
实施例1
本实施例多粒度分词标注数据自动获取方法,包括:
选择三种不同规范的单粒度分词标注数据集,也即CTB、PPD、MSR三种分 词规范;
如图4所示,将MSR中的句子转化为遵守PPD分词规范的分词序列;将MSR 中的句子转化为遵守CTB分词规范的分词序列;这样每一个MSR的句子就有三 种遵守不同规范的分词序列。在本实施例中,将PPD中的句子转化为遵守CTB 分词规范的分词序列;将PPD中的句子转化为遵守MSR分词规范的分词序列; 这样每一个PPD的句子就有三种遵守不同规范的分词序列。同样类似的,MSR中 的句子转化为遵守CTB分词规范的分词序列;将MSR中的句子转化为遵守PPD 分词规范的分词序列。进行完上述过程后,CTB、PPD、MSR三种分词规范中的每 一个句子都有了三种遵守不同规范的分词序列,合并所有的分词序列形成多粒 度分词标注数据集。
本实施例中,采用中国专利,申请号:201610463435.9所述的基于异构标 注数据的快速序列标注方法将其中遵守其中一种分词规范的句子转化为遵守另 一种分词规范的分词序列。给定MSR和PPD的单粒度分词标注数据作为输入, 训练一个MSR和PPD数据的耦合序列标注模型。用同样的方法训练MSR和CTB 数据的耦合序列标注模型以及PPD和CTB数据的耦合序列标注模型。
利用耦合模型进行转化的过程:通过训练得到耦合模型后,即可利用耦合 模型完成不同规范的单粒度分词标注数据的转化。这里以MSR规范单粒度分词 标注数据转化为PPD规范的单粒度分词标注数据为例,首先,给定耦合标记一 端的正确答案,以此获取模糊标记,如表1所示,其中,B表示当前字是词语中 的第一个字,E表示当前字是词语中的最后一个字,I表示当前字是词语中位于 中间的字,S表示由当前单独的一个字即可组成词语。表1中第二行中每个单元 格里左侧的标记为某种单粒度分词标注数据中的正确分词标记,右侧的标记列 举出了所有可能的四种标记,这样组成了一组模糊标记,如“全”字在MSR规范下得的标注为“B”,它的模糊标记为“BB BI BE BS”。然后,利用模糊标记 集合和一个耦合模型即可在不同规范的单粒度分词标注数据间转化。其基本思 想是用一端的正确标记作为强约束进行约束解码,用正确标记端作为指导特征 来进行转化。给定MSR分词标注数据和模糊标记集合,将该数据输入到MSR和 PPD耦合模型中测试,可以输出MSR数据的一个耦合标记集合。该耦合标记集合 的一端为正确的MSR分词标记,另一端为模型预测出的PPD分词标记,这样便 完成了从MSR规范的单粒度分词标注数据到PPD规范的单粒度分词标注数据的 转化。如表1中的“全”字解码后的输出为“BB”,左侧的“B”表示MSR分词 标注数据上人工标注的结果,右侧的“B”表示模型预测出的PPD规范的单粒度 分词结果。
表1
以“全国各地医学界专家走出医学大会堂”这个句子为例,如表2所示, MSR规范下它被分为“全国各地”“医学”“界”“专家”“走出”“医学大会 堂”等词语,将它转化到PPD规范的单粒度分词标注数据后被分成“全国”“各 地”“医学界”“专家”“走”“出”“医学”“大会堂”等词语。用同样的 方法,可以将这句话从MSR规范的单粒度分词标注数据转化为CTB规范的单粒 度分词标注数据,得到“全”“国”“各”“地”“医学界”“专家”“走出” “医学”“大会堂”的划分结果。
表2“全国各地医学界专家走出医学大会堂”这个句子的三种分词序列
图1所示,将上述“全国各地医学界专家走出医学大会堂”这句话的多粒 度分词结果转化为多粒度分词层次结构,参见图1所示。这个句子中包含的词 语有:“全”“国”“各”“地”“全国”“各地”“全国各地”“医学”“界” “医学界”“专家”“走”“出”“走出”“医学”“大会堂”“医学大会堂”。 图1中的层次结构进行表示,其中C代表字,W代表词语,X代表不能进一步与 其他词合并成更粗粒度的词语,J代表句子。
在本实施例中,仅仅具体列举了将将MSR中的句子进行转化的过程,本实 施例得到的多粒度分词标注数据集包含了3种规范中所有句子的多粒度分词结 果。
实施例2
本实施例多粒度分词标注数据自动获取方法,与实施例1相同,同样选择 三种不同规范的单粒度分词标注数据集,也即CTB、PPD、MSR三种分词规范。 本实施中,以CTB中的句子“这个跳水队在八十年代中期成立”转化为PPD、MSR 两种规范下的数据,具体转化方式与上述实施例1相同,在此不再赘述。以PPD 中的句子“近几年全省再就业人口增加”转化为CTB、MSR两种规范下的数据, 具体转化方式与上述实施例1相同,在此不再赘述。具体转化结果参见表3、表 4。
表3“这个跳水队在八十年代中期成立”的多粒度分词结果
表4“近几年全省再就业人口增加”的多粒度分词结果
如图2、3所示,将上述“这个跳水队在八十年代中期成立”、“近几年全 省再就业人口增加”这两句话的多粒度分词结果分别转化为多粒度分词层次结 构。
本实施例与上述实施例1的不同之处在于,本实施例仅仅将分词规范为CTB、 PPD两种单粒度分词标注数据集中的句子分别转化为遵守其他两种分词规范的 分词序列,将得到的分词规范为CTB、PPD两种单粒度分词标注数据集中的句子 分别遵守三种遵守不同规范的分词序列合并得到多粒度分词标注数据集。本实 施例的多粒度分词标注数据集中的数据相较于实施例1中的数据少。
上述实施例1或2中还可以仅仅挑选其中一种单粒度分词规范的句子分别 转化为其他两种分词规范的分词序列,仅仅合并这一个单粒度分词规范中的句 子对应的分词规范,本实施例的多粒度分词标注数据集中的数据相较于实施例2 中的数据少。
实施例3
本实施例多粒度分词标注数据自动获取方法,选择两种不同规范的单粒度 分词标注数据集,也即PPD、CTB两种分词规范。本实施中,仅仅列举以PPD中 的句子“这个跳水队在八十年代中期成立”转化为CTB规范下的数据的具体转 化结果,在本实施例中,类似的还将遵守CTB规范的单粒度分词标注数据集中 的句子“近几年全省再就业人口增加”转化为遵守PPD规范的分词序列,也即 遵守PPD、CTB规范的单粒度分词标注数据集中的被转化的句子分别具有两种不 同的分词序列,将这些分词序列合并,得到多粒度分词标注数据集。具体转化 方式与上述实施例1相同,在此不再赘述。“这个跳水队在八十年代中期成立” 具体多粒度分词结果参见表5所示。“近几年全省再就业人口增加”具体多粒 度分词结果参见表6所示。
表5“这个跳水队在八十年代中期成立”的多粒度分词结果
表6“近几年全省再就业人口增加”的多粒度分词结果
实施例4
本实施例多粒度分词标注数据自动获取系统,用于采用上述各实施例中所 述的方法运行,所述系统包括:
分词规范选择单元,用于选择n种不同规范的单粒度分词标注数据集,其 中n≥2,且n为正整数;
句子规范转换单元,用于将至少一种单粒度分词标注数据集中的句子分别 转化为遵守其他n-1种分词规范的分词序列,被转化后的句子对应的n种不同 规范的分词序列为该句子的多粒度分词结果;
分词序列合并单元,用于合并每一个句子的多粒度分词结果,形成多粒度 分词标注数据集。
本实施例中,还包括层次结构生成单元,用于将每一个句子对应的多粒度 分词结果转化为多粒度分词层次结构,所述的多粒度分词层次结构各层分别为 句子、不能进一步与其他词语合并成更粗粒度的词语、词语、字。纠错单元, 用于检查所述多粒度分词层次结构中词语是否存在交叉
上述各实施例中,如图5所示,将一种单粒度分词标注数据集中的句子转 化为遵守其他分词规范的分词序列过程中,首先,将单粒度分词标注数据集中 的句子划分出train数据、dev数据、test数据三类数据,然后,三类数据分 别转化为遵守其他分词规范的分词序列。
上述各实施例中,还包括检查所述多粒度分词层次结构中词语是否存在交 叉,若存在交叉,则进行人工校正。例如,三个字的词“ABC”,一个分词序列 中分为“AB/C”,另一个序列中分为“A/BC”,发现一定是一种规范中的句子 转化为另一种规范句子时转化错误导致。
由上述各实施例可知,多粒度分词标注数据集中的数据可多、可少,单粒 度分词规范的种类数量也是根据需要选择的,具体实施例的多少根据实际的需 要设置,单粒度分词标注数据集中的句子转化为多粒度分词结果转化的多,则 多粒度分词标注数据集中的数据多,单粒度分词标注数据集中的句子转化为多 粒度分词结果转化的少,则多粒度分词标注数据集中的数据少。
以上所述仅是本发明的优选实施方式,并不用于限制本发明,应当指出, 对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还 可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。

Claims (9)

1.一种多粒度分词标注数据自动获取方法,其特征在于,包括:
选择n种不同规范的单粒度分词标注数据集,其中n≥2,且n为正整数;
将至少一种单粒度分词标注数据集中的句子分别转化为遵守其他n-1种分词规范的分词序列,被转化后的句子对应的n种不同规范的分词序列为该句子的多粒度分词结果;
合并每一个句子的多粒度分词结果,形成多粒度分词标注数据集。
2.根据权利要求1所述的多粒度分词标注数据自动获取方法,其特征在于,还包括:将每一个句子对应的多粒度分词结果转化为多粒度分词层次结构,所述的多粒度分词层次结构各层分别为句子、不能进一步与其他词语合并成更粗粒度的词语、词语、字。
3.根据权利要求2所述的多粒度分词标注数据自动获取方法,其特征在于,还包括:检查所述多粒度分词层次结构中词语是否存在交叉,若存在交叉,则进行人工校正。
4.根据权利要求1所述的多粒度分词标注数据自动获取方法,其特征在于,将一种单粒度分词标注数据集中的句子转化为遵守其他分词规范的分词序列过程中,首先,将单粒度分词标注数据集中的句子划分出train数据、dev数据、test数据三类数据,然后,三类数据分别转化为遵守其他分词规范的分词序列。
5.根据权利要求1所述的多粒度分词标注数据自动获取方法,其特征在于,采用基于异构标注数据的快速序列标注方法将一种单粒度分词标注数据集中的句子转化为遵守其他分词规范的分词序列。
6.根据权利要求1所述的多粒度分词标注数据自动获取方法,其特征在于,将至少两种单粒度分词标注数据集中的句子分别转化为遵守其他n-1种分词规范的分词序列。
7.一种多粒度分词标注数据自动获取系统,其特征在于,包括:
分词规范选择单元,用于选择n种不同规范的单粒度分词标注数据集,其中n≥2,且n为正整数;
句子规范转换单元,用于将至少一种单粒度分词标注数据集中的句子分别转化为遵守其他n-1种分词规范的分词序列,被转化后的句子对应的n种不同规范的分词序列为该句子的多粒度分词结果;
分词序列合并单元,用于合并每一个句子的多粒度分词结果,形成多粒度分词标注数据集。
8.根据权利要求7所述的多粒度分词标注数据自动获取系统,其特征在于,还包括层次结构生成单元,用于将每一个句子对应的多粒度分词结果转化为多粒度分词层次结构,所述的多粒度分词层次结构各层分别为句子、不能进一步与其他词语合并成更粗粒度的词语、词语、字。
9.根据权利要求8所述的多粒度分词标注数据自动获取系统,其特征在于,纠错单元,用于检查所述多粒度分词层次结构中词语是否存在交叉。
CN201710791701.5A 2017-09-05 2017-09-05 多粒度分词标注数据自动获取方法及系统 Pending CN107818079A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710791701.5A CN107818079A (zh) 2017-09-05 2017-09-05 多粒度分词标注数据自动获取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710791701.5A CN107818079A (zh) 2017-09-05 2017-09-05 多粒度分词标注数据自动获取方法及系统

Publications (1)

Publication Number Publication Date
CN107818079A true CN107818079A (zh) 2018-03-20

Family

ID=61600895

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710791701.5A Pending CN107818079A (zh) 2017-09-05 2017-09-05 多粒度分词标注数据自动获取方法及系统

Country Status (1)

Country Link
CN (1) CN107818079A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023185377A1 (zh) * 2022-03-30 2023-10-05 华为云计算技术有限公司 一种多粒度数据模式挖掘方法及相关设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102479191A (zh) * 2010-11-22 2012-05-30 阿里巴巴集团控股有限公司 提供多粒度分词结果的方法及其装置
CN103176963A (zh) * 2013-03-08 2013-06-26 北京理工大学 基于crf++汉语句义结构模型自动标注方法
CN103324626A (zh) * 2012-03-21 2013-09-25 北京百度网讯科技有限公司 一种建立多粒度词典的方法、分词的方法及其装置
CN106202030A (zh) * 2016-06-23 2016-12-07 苏州大学 一种基于异构标注数据的快速序列标注方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102479191A (zh) * 2010-11-22 2012-05-30 阿里巴巴集团控股有限公司 提供多粒度分词结果的方法及其装置
CN103324626A (zh) * 2012-03-21 2013-09-25 北京百度网讯科技有限公司 一种建立多粒度词典的方法、分词的方法及其装置
CN103176963A (zh) * 2013-03-08 2013-06-26 北京理工大学 基于crf++汉语句义结构模型自动标注方法
CN106202030A (zh) * 2016-06-23 2016-12-07 苏州大学 一种基于异构标注数据的快速序列标注方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
FEI CHENG ET AL: "Parsing Chinese Synthetic Words with a Character-based Dependency Model", 《PROCEEDINGS OF THE NINTH INTERNATIONAL CONFERENCE ON LANGUAGE RESOURCES AND EVALUATION (LREC"14)》 *
WENBIN JIANG ET AL: "Automatic adaptation of annotation standards_ Chinese word segmentation and pos tagging–a case study", 《PROCEEDINGS OF THE 47TH ANNUAL MEETING OF THE ACL AND THE 4TH IJCNLP OF THE AFNLP》 *
朱慕华: "基于多数据源的成分句法分析研究", 《中国博士学位论文全文数据库 信息科技辑》 *
高恩婷 等: "面向词性标注的多资源转化研究", 《北京大学学报(自然科学版)》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023185377A1 (zh) * 2022-03-30 2023-10-05 华为云计算技术有限公司 一种多粒度数据模式挖掘方法及相关设备

Similar Documents

Publication Publication Date Title
CN107729312B (zh) 基于序列标注建模的多粒度分词方法及系统
CN107563498B (zh) 基于视觉与语义注意力相结合策略的图像描述方法及系统
CN104268160B (zh) 一种基于领域词典和语义角色的评价对象抽取方法
CN108121702B (zh) 数学主观题评阅方法及系统
CN109213999A (zh) 一种主观题评分方法
CN112528963A (zh) 基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题智能批阅系统
CN111027562B (zh) 基于多尺度cnn和结合注意力机制的rnn的光学字符识别方法
CN108563653A (zh) 一种用于知识图谱中知识获取模型的构建方法及系统
CN109948587B (zh) 基于高判别力特征挖掘的车辆再识别方法及装置
CN106407333A (zh) 基于人工智能的口语查询识别方法及装置
CN110020671B (zh) 基于双通道cnn-lstm网络的药物关系分类模型构建及分类方法
CN104835098A (zh) 一种病历电子数据识别方法及系统
CN108052504B (zh) 数学主观题解答结果的结构分析方法及系统
CN107004141A (zh) 对大样本组的高效标注
CN108960317A (zh) 基于跨语言词向量表示和分类器联合训练的跨语言文本分类方法
CN110263865A (zh) 一种半监督多模态多类别的图像翻译方法
CN109948696A (zh) 一种多语言场景字符识别方法及系统
CN107967688A (zh) 对图像中的对象进行分割的方法及系统
CN106021403A (zh) 客服方法及装置
CN106227836B (zh) 基于图像与文字的无监督联合视觉概念学习系统及方法
CN110147831A (zh) 基于Capsule网络和迁移学习的甲骨文构件识别系统
CN107818079A (zh) 多粒度分词标注数据自动获取方法及系统
CN104536951B (zh) 一种微博文本规范化及分词和词性标注的方法及系统
CN111680669A (zh) 一种试题分割方法、系统及可读存储介质
Wielstra et al. Exploring the effect of asymmetric mitochondrial DNA introgression on estimating niche divergence in morphologically cryptic species

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180320