CN105045888A - 一种用于hmm的分词训练语料标注方法 - Google Patents

一种用于hmm的分词训练语料标注方法 Download PDF

Info

Publication number
CN105045888A
CN105045888A CN201510448878.6A CN201510448878A CN105045888A CN 105045888 A CN105045888 A CN 105045888A CN 201510448878 A CN201510448878 A CN 201510448878A CN 105045888 A CN105045888 A CN 105045888A
Authority
CN
China
Prior art keywords
word
dictionary
trie
tree
hmm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510448878.6A
Other languages
English (en)
Inventor
范莹
刘福明
于治楼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Group Co Ltd
Original Assignee
Inspur Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Group Co Ltd filed Critical Inspur Group Co Ltd
Priority to CN201510448878.6A priority Critical patent/CN105045888A/zh
Publication of CN105045888A publication Critical patent/CN105045888A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种用于HMM的分词训练语料标注方法,属于大数据语言处理领域;利用trie将已有实体词词典的内容构建成字典树:构建trie字典树函数,标注字典文件全路径及文件名,将字典文件中每个词加入Set,利用开源org.ahocorasick.trie将输入的词加入trie树,从字符串中识别出trie树包含的词函数,读取特定文档,判断是否有文本行,若有则取出文本行与字典树匹配,匹配成功的词加入tagList中,遍历tagList,在待识别实体词的特定文档中识别出的词的一部分,按HMM构建模型时的需求将实体词按词首和词中进行标注状态的语料标注。

Description

一种用于HMM的分词训练语料标注方法
技术领域
本发明公开一种语料标注方法,属于大数据语言处理领域,具体地说是一种用于HMM的分词训练语料标注方法。
背景技术
全球企业都对于大数据充满了积极的热情,以后的大数据将变得无处不在。但是从大数据的应用现状来看,无论是是技术、产品还是应用还有待提升。对于中国的大数据而言,中文的自然语言处理是所有技术的基础。需要对识别出文本中的人名、地名等专有名称和有意义的时间、日期等数量短语加以归类命名,利用实体识别技术进行信息抽取、信息检索、机器翻译、问答系统等多种自然语言处理才能完成。然而对于特定的行业,用语语料千差万别,现有的实体识别方法不能快速自动地进行语料标注,不利于特定的行业语料标注的进行,不利于提高特定行业实体词识别的效率。本发明提供一种用于HMM的分词训练语料标注方法,用于HMM模型训练的方法,收集各种来源的实体词词库,利用trie树将已有实体词词库的内容构建成字典树,在待识别实体词的样本文档中搜索,并按HMM构建模型时的需求进行标注,达到提高特定行业HMM实体词识别率的目的。
HMM,隐马尔科夫模型,是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。
trie树是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串,但不仅限于字符串。
发明内容
本发明针对现有的实体识别方法不能快速自动地进行语料标注,不利于特定的行业语料标注的进行,不利于提高特定行业实体词识别的效率的问题,提供一种用于HMM的分词训练语料标注方法,对特定行业可以进行语料批量自动标注,达到提高特定行业HMM实体词识别率的目的。
本发明提出的具体方案是:
一种用于HMM的分词训练语料标注方法:
利用trie将已有实体词词典的内容构建成字典树:构建trie字典树函数,标注字典文件全路径及文件名,将字典文件中每个词加入Set,利用开源org.ahocorasick.trie将输入的词加入trie树,从字符串中识别出trie树包含的词函数,读取特定文档,判断是否有文本行,若有则取出文本行与字典树匹配,匹配成功的词加入tagList中,遍历tagList,在待识别实体词的特定文档中识别出的词的一部分,按HMM构建模型时的需求将实体词按词首和词中进行标注状态的语料标注。
所述取出文本行与字典树匹配的过程为:从根结点开始一次搜索;取得要查找包含词的第一个字母,并根据该字母选择对应的子树并转到该子树继续进行检索;在相应的子树上,取得要查找包含词的第二个字母,并进一步选择对应的子树进行检索;迭代过程;在某个结点处,包含词的所有字母已被取出,则读取附在该结点上的词信息,完成匹配查找。
所述实体词的标注状态包括人名词首,人名词中,地名词首,地名词中,组织机构名词首,组织机构名词中,其他状态。
利用trie将已有实体词词典的内容构建成字典树的伪代码为:
buildTrie(StringdictionaryPath)
BEGIN
TrieahoCorasickNaive=newTrie();
path=dictionaryPath;//
Set<String>dictionary=newTreeSet<String>();
BufferedReaderbr=newBufferedReader(newFileReader(path));
Stringline;
while((line=br.readLine())!=null)
{
dictionary.add(line);//
}
br.close();
for(Stringword:dictionary)
{
ahoCorasickNaive.addKeyword(word);//
}
END
exactMatch(Stringstr)
BEGIN
Collection<Emit>e=ahoCorasickNaive.parseText(str);//
List<Emit>res=newArrayList<Emit>();
for(Emita:e){
res.add(a);//
}
returnres;
}
END
完成构建字典树。
当实体词的标注状态包括人名词首,人名词中,地名词首,地名词中,组织机构名词首,组织机构名词中,其他状态时,标注语料实现的伪代码可以如下:
BEGIN
reader=将待识别实体词样本文档读入BufferedReader;
writer=标注后的行写入的文件(PrintWriter);
TrieDictionarynameDic=TrieDictionary.buildTrie此为人名字典文件路径;
TrieDictionarylocDic=TrieDictionary.buildTrie此为地名字典文件路径;
TrieDictionaryorgDic=TrieDictionary.buildTrie此为组织机构名字典文件路径;
while((line=reader.readLine())!=null){
tmp=nameDic.exactMatch(line);//此处开源org.ahocorasick.trie的方法,在一行文本中,匹配出所有nameDic包含的的人名加入到tmp集合中;
for(Emite:tmp){
将tmp中所有人名以TagNode(Tag,Keyword、Start、End)的形式添加到数组列表tagList中;
}
清空tmp
tmp=locDic.exactMatch(line);//此处开源org.ahocorasick.trie的方法,在一行文本中,匹配出所有locDic包含的的人名加入到tmp集合中;
for(Emite:tmp){
将tmp中所有地名以TagNode(Tag,Keyword、Start、End)的形式添加到数组列表tagList中;
}
tmp=orgDic.exactMatch(line);//此处开源org.ahocorasick.trie的方法,在一行文本中,匹配出所有orgDic包含的的组织机构名加入到tmp集合中;
for(Emite:tmp){
将tmp中所有人名以TagNode(Tag,Keyword、Start、End)的形式添加到数组列表tagList中;
}
对tagList内所有节点按在行中的先后位置排序;
遍历tagList,对同一起始位置识别出不同的词,只保留最长的;
if(tagList.size()>0){
for(inti=0;i<tagList.size();i++){遍历所有匹配词
inta=取出词的初始位置;
本词初始位置前的所有字,将“字”+“N”写入语料库;
将本词的第一个字,以“字”+“B-”+“本词的Tag值”写入语料库;
本词中的其他字,以“字”+“I-”+“本词的Tag值”写入语料库;
}
剩余的字,都以“字”+“N”写入语料库;
}else{
本行所有字都以“字”+“N”写入语料库;
}
写入行分隔符;
}
write.close();
reader.close();
}
END
结束标注。
本发明的有益之处是:本发明用于HMM模型训练的方法,收集各种来源的实体词词库,利用trie树将已有实体词词库的内容构建成字典树,在待识别实体词的样本文档中搜索,并按HMM构建模型时的需求进行标注,达到提高特定行业HMM实体词识别率的目的。
附图说明
图1trie树示例示意图;
图2本发明流程示意图。
具体实施方式
结合附图对发明做进一步说明。
比如原文行:尤以收录周恩来总理、马俊烈士的《南开中学同学录》、《李大钊烈士遗篇孤本《中国大学学术演讲录》1923年、黄埔军校政治宣传教材1927年等为收藏界所称道。
一种用于HMM的分词训练语料标注方法:
利用trie将已有实体词词典的内容构建成字典树:构建trie字典树函数,标注字典文件全路径及文件名,将字典文件中每个词加入Set,利用开源org.ahocorasick.trie将输入的词加入trie树,从字符串中识别出trie树包含的词函数,读取特定文档,判断是否有文本行,若有则取出文本行与字典树匹配,匹配成功的词加入tagList中,遍历tagList,在待识别实体词的特定文档中识别出的词的一部分,按HMM构建模型时的需求将实体词按词首和词中进行标注状态的语料标注。实体词的标注状态包括人名词首,人名词中,地名词首,地名词中,组织机构名词首,组织机构名词中,其他状态。
所述取出文本行与字典树匹配的过程为:从根结点开始一次搜索;取得要查找包含词的第一个字母,并根据该字母选择对应的子树并转到该子树继续进行检索;在相应的子树上,取得要查找包含词的第二个字母,并进一步选择对应的子树进行检索;迭代过程;在某个结点处,包含词的所有字母已被取出,则读取附在该结点上的词信息,完成匹配查找。
利用trie将已有实体词词典的内容构建成字典树的伪代码为:
构建trie字典树函数:buildTrie(StringdictionaryPath)
BEGIN
TrieahoCorasickNaive=newTrie();
path=dictionaryPath;此处为字典文件全路径及文件名
Set<String>dictionary=newTreeSet<String>();
BufferedReaderbr=newBufferedReader(newFileReader(path));
Stringline;
while((line=br.readLine())!=null)
{
dictionary.add(line);此处将字典文件中每个词加入Set
}
br.close();
for(Stringword:dictionary)
{
ahoCorasickNaive.addKeyword(word);此处利用开源org.ahocorasick.trie的方法,将分类词加入trie树
}
END
exactMatch(Stringstr)
BEGIN
Collection<Emit>e=ahoCorasickNaive.parseText(str);
List<Emit>res=newArrayList<Emit>();
for(Emita:e){
res.add(a);将唯一全匹配的词加入结果集合
}
returnres;
}
END
完成构建字典树。
当实体词的标注状态包括人名词首,人名词中,地名词首,地名词中,组织机构名词首,组织机构名词中,其他状态时,标注语料实现的伪代码可以如下:
BEGIN
reader=将待识别实体词样本文档读入BufferedReader;
writer=标注后的行写入的文件(PrintWriter);
TrieDictionarynameDic=TrieDictionary.buildTrie此为人名字典文件路径;
TrieDictionarylocDic=TrieDictionary.buildTrie此为地名字典文件路径;
TrieDictionaryorgDic=TrieDictionary.buildTrie此为组织机构名字典文件路径;
while((line=reader.readLine())!=null){
tmp=nameDic.exactMatch(line);//此处开源org.ahocorasick.trie的方法,在一行文本中,匹配出所有nameDic包含的的人名加入到tmp集合中;
for(Emite:tmp){
将tmp中所有人名以TagNode(Tag,Keyword、Start、End)的形式添加到数组列表tagList中;
}
清空tmp
tmp=locDic.exactMatch(line);//此处开源org.ahocorasick.trie的方法,在一行文本中,匹配出所有locDic包含的的人名加入到tmp集合中;
for(Emite:tmp){
将tmp中所有地名以TagNode(Tag,Keyword、Start、End)的形式添加到数组列表tagList中;
}
tmp=orgDic.exactMatch(line);//此处开源org.ahocorasick.trie的方法,在一行文本中,匹配出所有orgDic包含的的组织机构名加入到tmp集合中;
for(Emite:tmp){
将tmp中所有人名以TagNode(Tag,Keyword、Start、End)的形式添加到数组列表tagList中;
}
对tagList内所有节点按在行中的先后位置排序;
遍历tagList,对同一起始位置识别出不同的词,只保留最长的;
if(tagList.size()>0){
for(inti=0;i<tagList.size();i++){遍历所有匹配词
inta=取出词的初始位置;
本词初始位置前的所有字,将“字”+“N”写入语料库;
将本词的第一个字,以“字”+“B-”+“本词的Tag值”写入语料库;
本词中的其他字,以“字”+“I-”+“本词的Tag值”写入语料库;
}
剩余的字,都以“字”+“N”写入语料库;
}else{
本行所有字都以“字”+“N”写入语料库;
}
写入行分隔符;
}
write.close();
reader.close();
}
END
结束标注。
则原文标注后结果为:
Step1:nameDic=TrieDictionary.buildTrie(人名字典文件路径);参考图1。
locDic=TrieDictionary.buildTrie为地名字典文件路径;
orgDic=TrieDictionary.buildTrie为组织机构名字典文件路径;
Step2:nameDic.exactMatch(原文行);
结果:[0:0=尤,4:6=周恩来,10:10=马,10:11=马骏,26:28=李大钊,52:52=黄]
locDic.exactMatch(原文行);
结果:[16:16=南,36:37=中国]
orgDic.exactMatch(原文行);
结果:[16:19=南开中学,36:37=中国,52:55=黄埔军校]
Step3:词列表合并、过滤;
TagNode(Tag,Keyword、Start、End)
结果:tagList[[PER,周恩来4,6],[PER,马骏10,11],[ORG,南开中学16,19],[PER,李大钊,26,28],[LOC,中国,36,37],[ORG,黄埔军校,52,55]
Step4:标注写入文件
结果:尤N以N收N录N周B-PER恩I-PER来I-PER总N理N、N马B-PER骏I-PER烈N士N的N《N南B-ORG开I-ORG中I-ORG学I-ORG同N学N录N》N(N1NN1N9N年N)N、N李B-PER大I-PER钊I-PER烈N士N遗N篇N孤N本N《N中B-LOC国I-LOC大N学N学N术N演N讲N录N》N(N1N9N2N3N年N)N、N黄B-ORG埔I-ORG军I-ORG校I-ORG政N治N宣N传N教N材N(N1N9N2N7N年N)N等N为N收N藏N界N所N称N道N。N
按HMM构建模型时的需求进行标注,达到提高特定行业HMM实体词识别率的目的。

Claims (4)

1.一种用于HMM的分词训练语料标注方法,其特征是:
利用trie将已有实体词词典的内容构建成字典树:构建trie字典树函数,标注字典文件全路径及文件名,将字典文件中每个词加入Set,利用开源org.ahocorasick.trie将输入的词加入trie树,从字符串中识别出trie树包含的词函数,读取特定文档,判断是否有文本行,若有则取出文本行与字典树匹配,匹配成功的词加入tagList中,遍历tagList,在待识别实体词的特定文档中识别出的词的一部分,按HMM构建模型时的需求将实体词按词首和词中进行标注状态的语料标注。
2.根据权利要求1所述的一种用于HMM的分词训练语料标注方法,其特征是所述取出文本行与字典树匹配的过程为:从根结点开始一次搜索;取得要查找包含词的第一个字母,并根据该字母选择对应的子树并转到该子树继续进行检索;在相应的子树上,取得要查找包含词的第二个字母,并进一步选择对应的子树进行检索;迭代过程;在某个结点处,包含词的所有字母已被取出,则读取附在该结点上的词信息,完成匹配查找。
3.根据权利要求2所述的一种用于HMM的分词训练语料标注方法,其特征是所述实体词的标注状态包括人名词首,人名词中,地名词首,地名词中,组织机构名词首,组织机构名词中,其他状态。
4.根据权利要求2或3所述的一种用于HMM的分词训练语料标注方法,其特征是利用trie将已有实体词词典的内容构建成字典树的伪代码为:
buildTrie(StringdictionaryPath)
BEGIN
TrieahoCorasickNaive=newTrie();
path=dictionaryPath;//
Set<String>dictionary=newTreeSet<String>();
BufferedReaderbr=newBufferedReader(newFileReader(path));
Stringline;
while((line=br.readLine())!=null)
{
dictionary.add(line);//
}
br.close();
for(Stringword:dictionary)
{
ahoCorasickNaive.addKeyword(word);//
}
END
exactMatch(Stringstr)
BEGIN
Collection<Emit>e=ahoCorasickNaive.parseText(str);//
List<Emit>res=newArrayList<Emit>();
for(Emita:e){
res.add(a);//
}
returnres;
}
END
完成构建字典树。
CN201510448878.6A 2015-07-28 2015-07-28 一种用于hmm的分词训练语料标注方法 Pending CN105045888A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510448878.6A CN105045888A (zh) 2015-07-28 2015-07-28 一种用于hmm的分词训练语料标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510448878.6A CN105045888A (zh) 2015-07-28 2015-07-28 一种用于hmm的分词训练语料标注方法

Publications (1)

Publication Number Publication Date
CN105045888A true CN105045888A (zh) 2015-11-11

Family

ID=54452435

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510448878.6A Pending CN105045888A (zh) 2015-07-28 2015-07-28 一种用于hmm的分词训练语料标注方法

Country Status (1)

Country Link
CN (1) CN105045888A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106372187A (zh) * 2016-08-31 2017-02-01 中译语通科技(北京)有限公司 一种面向大数据的跨语言检索方法
CN106909630A (zh) * 2017-01-26 2017-06-30 武汉奇米网络科技有限公司 基于动态词库的敏感词过滤方法及系统
CN107861940A (zh) * 2017-10-10 2018-03-30 昆明理工大学 一种基于hmm的中文分词方法
CN108733665A (zh) * 2017-04-13 2018-11-02 艺龙网信息技术(北京)有限公司 基于特征和语义的景点信息匹配方法及装置
CN109408828A (zh) * 2018-11-08 2019-03-01 四川长虹电器股份有限公司 用于电视领域语义分析的分词系统
CN110147433A (zh) * 2019-05-21 2019-08-20 北京鸿联九五信息产业有限公司 一种基于字典树的文本模板提取方法
CN110175273A (zh) * 2019-05-22 2019-08-27 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机可读存储介质和计算机设备
CN111651990A (zh) * 2020-04-14 2020-09-11 车智互联(北京)科技有限公司 一种实体识别方法、计算设备及可读存储介质
CN113722464A (zh) * 2021-09-14 2021-11-30 国泰君安证券股份有限公司 针对证券智能客服系统实现命名实体识别处理的系统、方法、装置、处理器及其存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7293012B1 (en) * 2003-12-19 2007-11-06 Microsoft Corporation Friendly URLs
CN103440311A (zh) * 2013-08-27 2013-12-11 深圳市华傲数据技术有限公司 一种地名实体识别的方法及系统
CN103678336A (zh) * 2012-09-05 2014-03-26 阿里巴巴集团控股有限公司 实体词识别方法及装置
CN104615590A (zh) * 2015-03-02 2015-05-13 浪潮集团有限公司 一种项目名称的提取方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7293012B1 (en) * 2003-12-19 2007-11-06 Microsoft Corporation Friendly URLs
CN103678336A (zh) * 2012-09-05 2014-03-26 阿里巴巴集团控股有限公司 实体词识别方法及装置
CN103440311A (zh) * 2013-08-27 2013-12-11 深圳市华傲数据技术有限公司 一种地名实体识别的方法及系统
CN104615590A (zh) * 2015-03-02 2015-05-13 浪潮集团有限公司 一种项目名称的提取方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张小欢: "中文分词系统的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106372187A (zh) * 2016-08-31 2017-02-01 中译语通科技(北京)有限公司 一种面向大数据的跨语言检索方法
CN106909630A (zh) * 2017-01-26 2017-06-30 武汉奇米网络科技有限公司 基于动态词库的敏感词过滤方法及系统
CN108733665A (zh) * 2017-04-13 2018-11-02 艺龙网信息技术(北京)有限公司 基于特征和语义的景点信息匹配方法及装置
CN107861940A (zh) * 2017-10-10 2018-03-30 昆明理工大学 一种基于hmm的中文分词方法
CN109408828A (zh) * 2018-11-08 2019-03-01 四川长虹电器股份有限公司 用于电视领域语义分析的分词系统
CN110147433A (zh) * 2019-05-21 2019-08-20 北京鸿联九五信息产业有限公司 一种基于字典树的文本模板提取方法
CN110175273A (zh) * 2019-05-22 2019-08-27 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机可读存储介质和计算机设备
CN110175273B (zh) * 2019-05-22 2021-09-07 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机可读存储介质和计算机设备
CN111651990A (zh) * 2020-04-14 2020-09-11 车智互联(北京)科技有限公司 一种实体识别方法、计算设备及可读存储介质
CN111651990B (zh) * 2020-04-14 2024-03-15 车智互联(北京)科技有限公司 一种实体识别方法、计算设备及可读存储介质
CN113722464A (zh) * 2021-09-14 2021-11-30 国泰君安证券股份有限公司 针对证券智能客服系统实现命名实体识别处理的系统、方法、装置、处理器及其存储介质

Similar Documents

Publication Publication Date Title
CN105045888A (zh) 一种用于hmm的分词训练语料标注方法
CN1894686A (zh) 用于文档构造的文本分段和主题注释
US20090144277A1 (en) Electronic table of contents entry classification and labeling scheme
CN104298662A (zh) 一种基于有机物命名实体的机器翻译方法及翻译系统
CN110413764B (zh) 基于预建词库的长文本企业名称识别方法
CN110175334B (zh) 基于自定义的知识槽结构的文本知识抽取系统和方法
US20220130163A1 (en) System for template invariant information extraction
CN104077346A (zh) 文档制作支援装置、方法及程序
CN107357765A (zh) Word文档碎片化方法及装置
CN112966117A (zh) 实体链接方法
CN105095196A (zh) 文本中新词发现的方法和装置
CN115618866A (zh) 一种工程项目投标文件的段落识别与主题提取方法及系统
Konrad et al. From form to function. A database approach to handle lexicon building and spotting token forms in sign languages
CN110008473B (zh) 一种基于迭代方法的医疗文本命名实体识别标注方法
CN113642320A (zh) 文档目录结构的提取方法、装置、设备和介质
CN1102779C (zh) 中文简繁体字文件转换装置
CN105608137A (zh) 一种提取身份标识的方法和装置
CN111274354B (zh) 一种裁判文书结构化方法及装置
Hamann et al. Detailed mark‐up of semi‐monographic legacy taxonomic works using FlorML
CN113474767A (zh) 文件检索装置、文件检索系统、文件检索程序及文件检索方法
CN111368547A (zh) 基于语义解析的实体识别方法、装置、设备和存储介质
CN111310473A (zh) 文本纠错方法及其模型训练的方法、装置
CN109918632A (zh) 基于场景模板的文献撰写辅助方法
CN113806311B (zh) 基于深度学习的文件分类方法、装置、电子设备及介质
Song et al. POSBIOTM-NER: a machine learning approach for bio-named entity recognition

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20151111