CN105045888A - 一种用于hmm的分词训练语料标注方法 - Google Patents
一种用于hmm的分词训练语料标注方法 Download PDFInfo
- Publication number
- CN105045888A CN105045888A CN201510448878.6A CN201510448878A CN105045888A CN 105045888 A CN105045888 A CN 105045888A CN 201510448878 A CN201510448878 A CN 201510448878A CN 105045888 A CN105045888 A CN 105045888A
- Authority
- CN
- China
- Prior art keywords
- word
- dictionary
- trie
- tree
- hmm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/322—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种用于HMM的分词训练语料标注方法,属于大数据语言处理领域;利用trie将已有实体词词典的内容构建成字典树:构建trie字典树函数,标注字典文件全路径及文件名,将字典文件中每个词加入Set,利用开源org.ahocorasick.trie将输入的词加入trie树,从字符串中识别出trie树包含的词函数,读取特定文档,判断是否有文本行,若有则取出文本行与字典树匹配,匹配成功的词加入tagList中,遍历tagList,在待识别实体词的特定文档中识别出的词的一部分,按HMM构建模型时的需求将实体词按词首和词中进行标注状态的语料标注。
Description
技术领域
本发明公开一种语料标注方法,属于大数据语言处理领域,具体地说是一种用于HMM的分词训练语料标注方法。
背景技术
全球企业都对于大数据充满了积极的热情,以后的大数据将变得无处不在。但是从大数据的应用现状来看,无论是是技术、产品还是应用还有待提升。对于中国的大数据而言,中文的自然语言处理是所有技术的基础。需要对识别出文本中的人名、地名等专有名称和有意义的时间、日期等数量短语加以归类命名,利用实体识别技术进行信息抽取、信息检索、机器翻译、问答系统等多种自然语言处理才能完成。然而对于特定的行业,用语语料千差万别,现有的实体识别方法不能快速自动地进行语料标注,不利于特定的行业语料标注的进行,不利于提高特定行业实体词识别的效率。本发明提供一种用于HMM的分词训练语料标注方法,用于HMM模型训练的方法,收集各种来源的实体词词库,利用trie树将已有实体词词库的内容构建成字典树,在待识别实体词的样本文档中搜索,并按HMM构建模型时的需求进行标注,达到提高特定行业HMM实体词识别率的目的。
HMM,隐马尔科夫模型,是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。
trie树是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串,但不仅限于字符串。
发明内容
本发明针对现有的实体识别方法不能快速自动地进行语料标注,不利于特定的行业语料标注的进行,不利于提高特定行业实体词识别的效率的问题,提供一种用于HMM的分词训练语料标注方法,对特定行业可以进行语料批量自动标注,达到提高特定行业HMM实体词识别率的目的。
本发明提出的具体方案是:
一种用于HMM的分词训练语料标注方法:
利用trie将已有实体词词典的内容构建成字典树:构建trie字典树函数,标注字典文件全路径及文件名,将字典文件中每个词加入Set,利用开源org.ahocorasick.trie将输入的词加入trie树,从字符串中识别出trie树包含的词函数,读取特定文档,判断是否有文本行,若有则取出文本行与字典树匹配,匹配成功的词加入tagList中,遍历tagList,在待识别实体词的特定文档中识别出的词的一部分,按HMM构建模型时的需求将实体词按词首和词中进行标注状态的语料标注。
所述取出文本行与字典树匹配的过程为:从根结点开始一次搜索;取得要查找包含词的第一个字母,并根据该字母选择对应的子树并转到该子树继续进行检索;在相应的子树上,取得要查找包含词的第二个字母,并进一步选择对应的子树进行检索;迭代过程;在某个结点处,包含词的所有字母已被取出,则读取附在该结点上的词信息,完成匹配查找。
所述实体词的标注状态包括人名词首,人名词中,地名词首,地名词中,组织机构名词首,组织机构名词中,其他状态。
利用trie将已有实体词词典的内容构建成字典树的伪代码为:
buildTrie(StringdictionaryPath)
BEGIN
TrieahoCorasickNaive=newTrie();
path=dictionaryPath;//
Set<String>dictionary=newTreeSet<String>();
BufferedReaderbr=newBufferedReader(newFileReader(path));
Stringline;
while((line=br.readLine())!=null)
{
dictionary.add(line);//
}
br.close();
for(Stringword:dictionary)
{
ahoCorasickNaive.addKeyword(word);//
}
END
exactMatch(Stringstr)
BEGIN
Collection<Emit>e=ahoCorasickNaive.parseText(str);//
List<Emit>res=newArrayList<Emit>();
for(Emita:e){
res.add(a);//
}
returnres;
}
END
完成构建字典树。
当实体词的标注状态包括人名词首,人名词中,地名词首,地名词中,组织机构名词首,组织机构名词中,其他状态时,标注语料实现的伪代码可以如下:
BEGIN
reader=将待识别实体词样本文档读入BufferedReader;
writer=标注后的行写入的文件(PrintWriter);
TrieDictionarynameDic=TrieDictionary.buildTrie此为人名字典文件路径;
TrieDictionarylocDic=TrieDictionary.buildTrie此为地名字典文件路径;
TrieDictionaryorgDic=TrieDictionary.buildTrie此为组织机构名字典文件路径;
while((line=reader.readLine())!=null){
tmp=nameDic.exactMatch(line);//此处开源org.ahocorasick.trie的方法,在一行文本中,匹配出所有nameDic包含的的人名加入到tmp集合中;
for(Emite:tmp){
将tmp中所有人名以TagNode(Tag,Keyword、Start、End)的形式添加到数组列表tagList中;
}
清空tmp
tmp=locDic.exactMatch(line);//此处开源org.ahocorasick.trie的方法,在一行文本中,匹配出所有locDic包含的的人名加入到tmp集合中;
for(Emite:tmp){
将tmp中所有地名以TagNode(Tag,Keyword、Start、End)的形式添加到数组列表tagList中;
}
tmp=orgDic.exactMatch(line);//此处开源org.ahocorasick.trie的方法,在一行文本中,匹配出所有orgDic包含的的组织机构名加入到tmp集合中;
for(Emite:tmp){
将tmp中所有人名以TagNode(Tag,Keyword、Start、End)的形式添加到数组列表tagList中;
}
对tagList内所有节点按在行中的先后位置排序;
遍历tagList,对同一起始位置识别出不同的词,只保留最长的;
if(tagList.size()>0){
for(inti=0;i<tagList.size();i++){遍历所有匹配词
inta=取出词的初始位置;
本词初始位置前的所有字,将“字”+“N”写入语料库;
将本词的第一个字,以“字”+“B-”+“本词的Tag值”写入语料库;
本词中的其他字,以“字”+“I-”+“本词的Tag值”写入语料库;
}
剩余的字,都以“字”+“N”写入语料库;
}else{
本行所有字都以“字”+“N”写入语料库;
}
写入行分隔符;
}
write.close();
reader.close();
}
END
结束标注。
本发明的有益之处是:本发明用于HMM模型训练的方法,收集各种来源的实体词词库,利用trie树将已有实体词词库的内容构建成字典树,在待识别实体词的样本文档中搜索,并按HMM构建模型时的需求进行标注,达到提高特定行业HMM实体词识别率的目的。
附图说明
图1trie树示例示意图;
图2本发明流程示意图。
具体实施方式
结合附图对发明做进一步说明。
比如原文行:尤以收录周恩来总理、马俊烈士的《南开中学同学录》、《李大钊烈士遗篇孤本《中国大学学术演讲录》1923年、黄埔军校政治宣传教材1927年等为收藏界所称道。
一种用于HMM的分词训练语料标注方法:
利用trie将已有实体词词典的内容构建成字典树:构建trie字典树函数,标注字典文件全路径及文件名,将字典文件中每个词加入Set,利用开源org.ahocorasick.trie将输入的词加入trie树,从字符串中识别出trie树包含的词函数,读取特定文档,判断是否有文本行,若有则取出文本行与字典树匹配,匹配成功的词加入tagList中,遍历tagList,在待识别实体词的特定文档中识别出的词的一部分,按HMM构建模型时的需求将实体词按词首和词中进行标注状态的语料标注。实体词的标注状态包括人名词首,人名词中,地名词首,地名词中,组织机构名词首,组织机构名词中,其他状态。
所述取出文本行与字典树匹配的过程为:从根结点开始一次搜索;取得要查找包含词的第一个字母,并根据该字母选择对应的子树并转到该子树继续进行检索;在相应的子树上,取得要查找包含词的第二个字母,并进一步选择对应的子树进行检索;迭代过程;在某个结点处,包含词的所有字母已被取出,则读取附在该结点上的词信息,完成匹配查找。
利用trie将已有实体词词典的内容构建成字典树的伪代码为:
构建trie字典树函数:buildTrie(StringdictionaryPath)
BEGIN
TrieahoCorasickNaive=newTrie();
path=dictionaryPath;此处为字典文件全路径及文件名
Set<String>dictionary=newTreeSet<String>();
BufferedReaderbr=newBufferedReader(newFileReader(path));
Stringline;
while((line=br.readLine())!=null)
{
dictionary.add(line);此处将字典文件中每个词加入Set
}
br.close();
for(Stringword:dictionary)
{
ahoCorasickNaive.addKeyword(word);此处利用开源org.ahocorasick.trie的方法,将分类词加入trie树
}
END
exactMatch(Stringstr)
BEGIN
Collection<Emit>e=ahoCorasickNaive.parseText(str);
List<Emit>res=newArrayList<Emit>();
for(Emita:e){
res.add(a);将唯一全匹配的词加入结果集合
}
returnres;
}
END
完成构建字典树。
当实体词的标注状态包括人名词首,人名词中,地名词首,地名词中,组织机构名词首,组织机构名词中,其他状态时,标注语料实现的伪代码可以如下:
BEGIN
reader=将待识别实体词样本文档读入BufferedReader;
writer=标注后的行写入的文件(PrintWriter);
TrieDictionarynameDic=TrieDictionary.buildTrie此为人名字典文件路径;
TrieDictionarylocDic=TrieDictionary.buildTrie此为地名字典文件路径;
TrieDictionaryorgDic=TrieDictionary.buildTrie此为组织机构名字典文件路径;
while((line=reader.readLine())!=null){
tmp=nameDic.exactMatch(line);//此处开源org.ahocorasick.trie的方法,在一行文本中,匹配出所有nameDic包含的的人名加入到tmp集合中;
for(Emite:tmp){
将tmp中所有人名以TagNode(Tag,Keyword、Start、End)的形式添加到数组列表tagList中;
}
清空tmp
tmp=locDic.exactMatch(line);//此处开源org.ahocorasick.trie的方法,在一行文本中,匹配出所有locDic包含的的人名加入到tmp集合中;
for(Emite:tmp){
将tmp中所有地名以TagNode(Tag,Keyword、Start、End)的形式添加到数组列表tagList中;
}
tmp=orgDic.exactMatch(line);//此处开源org.ahocorasick.trie的方法,在一行文本中,匹配出所有orgDic包含的的组织机构名加入到tmp集合中;
for(Emite:tmp){
将tmp中所有人名以TagNode(Tag,Keyword、Start、End)的形式添加到数组列表tagList中;
}
对tagList内所有节点按在行中的先后位置排序;
遍历tagList,对同一起始位置识别出不同的词,只保留最长的;
if(tagList.size()>0){
for(inti=0;i<tagList.size();i++){遍历所有匹配词
inta=取出词的初始位置;
本词初始位置前的所有字,将“字”+“N”写入语料库;
将本词的第一个字,以“字”+“B-”+“本词的Tag值”写入语料库;
本词中的其他字,以“字”+“I-”+“本词的Tag值”写入语料库;
}
剩余的字,都以“字”+“N”写入语料库;
}else{
本行所有字都以“字”+“N”写入语料库;
}
写入行分隔符;
}
write.close();
reader.close();
}
END
结束标注。
则原文标注后结果为:
Step1:nameDic=TrieDictionary.buildTrie(人名字典文件路径);参考图1。
locDic=TrieDictionary.buildTrie为地名字典文件路径;
orgDic=TrieDictionary.buildTrie为组织机构名字典文件路径;
Step2:nameDic.exactMatch(原文行);
结果:[0:0=尤,4:6=周恩来,10:10=马,10:11=马骏,26:28=李大钊,52:52=黄]
locDic.exactMatch(原文行);
结果:[16:16=南,36:37=中国]
orgDic.exactMatch(原文行);
结果:[16:19=南开中学,36:37=中国,52:55=黄埔军校]
Step3:词列表合并、过滤;
TagNode(Tag,Keyword、Start、End)
结果:tagList[[PER,周恩来4,6],[PER,马骏10,11],[ORG,南开中学16,19],[PER,李大钊,26,28],[LOC,中国,36,37],[ORG,黄埔军校,52,55]
Step4:标注写入文件
结果:尤N以N收N录N周B-PER恩I-PER来I-PER总N理N、N马B-PER骏I-PER烈N士N的N《N南B-ORG开I-ORG中I-ORG学I-ORG同N学N录N》N(N1NN1N9N年N)N、N李B-PER大I-PER钊I-PER烈N士N遗N篇N孤N本N《N中B-LOC国I-LOC大N学N学N术N演N讲N录N》N(N1N9N2N3N年N)N、N黄B-ORG埔I-ORG军I-ORG校I-ORG政N治N宣N传N教N材N(N1N9N2N7N年N)N等N为N收N藏N界N所N称N道N。N
按HMM构建模型时的需求进行标注,达到提高特定行业HMM实体词识别率的目的。
Claims (4)
1.一种用于HMM的分词训练语料标注方法,其特征是:
利用trie将已有实体词词典的内容构建成字典树:构建trie字典树函数,标注字典文件全路径及文件名,将字典文件中每个词加入Set,利用开源org.ahocorasick.trie将输入的词加入trie树,从字符串中识别出trie树包含的词函数,读取特定文档,判断是否有文本行,若有则取出文本行与字典树匹配,匹配成功的词加入tagList中,遍历tagList,在待识别实体词的特定文档中识别出的词的一部分,按HMM构建模型时的需求将实体词按词首和词中进行标注状态的语料标注。
2.根据权利要求1所述的一种用于HMM的分词训练语料标注方法,其特征是所述取出文本行与字典树匹配的过程为:从根结点开始一次搜索;取得要查找包含词的第一个字母,并根据该字母选择对应的子树并转到该子树继续进行检索;在相应的子树上,取得要查找包含词的第二个字母,并进一步选择对应的子树进行检索;迭代过程;在某个结点处,包含词的所有字母已被取出,则读取附在该结点上的词信息,完成匹配查找。
3.根据权利要求2所述的一种用于HMM的分词训练语料标注方法,其特征是所述实体词的标注状态包括人名词首,人名词中,地名词首,地名词中,组织机构名词首,组织机构名词中,其他状态。
4.根据权利要求2或3所述的一种用于HMM的分词训练语料标注方法,其特征是利用trie将已有实体词词典的内容构建成字典树的伪代码为:
buildTrie(StringdictionaryPath)
BEGIN
TrieahoCorasickNaive=newTrie();
path=dictionaryPath;//
Set<String>dictionary=newTreeSet<String>();
BufferedReaderbr=newBufferedReader(newFileReader(path));
Stringline;
while((line=br.readLine())!=null)
{
dictionary.add(line);//
}
br.close();
for(Stringword:dictionary)
{
ahoCorasickNaive.addKeyword(word);//
}
END
exactMatch(Stringstr)
BEGIN
Collection<Emit>e=ahoCorasickNaive.parseText(str);//
List<Emit>res=newArrayList<Emit>();
for(Emita:e){
res.add(a);//
}
returnres;
}
END
完成构建字典树。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510448878.6A CN105045888A (zh) | 2015-07-28 | 2015-07-28 | 一种用于hmm的分词训练语料标注方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510448878.6A CN105045888A (zh) | 2015-07-28 | 2015-07-28 | 一种用于hmm的分词训练语料标注方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105045888A true CN105045888A (zh) | 2015-11-11 |
Family
ID=54452435
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510448878.6A Pending CN105045888A (zh) | 2015-07-28 | 2015-07-28 | 一种用于hmm的分词训练语料标注方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105045888A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106372187A (zh) * | 2016-08-31 | 2017-02-01 | 中译语通科技(北京)有限公司 | 一种面向大数据的跨语言检索方法 |
CN106909630A (zh) * | 2017-01-26 | 2017-06-30 | 武汉奇米网络科技有限公司 | 基于动态词库的敏感词过滤方法及系统 |
CN107861940A (zh) * | 2017-10-10 | 2018-03-30 | 昆明理工大学 | 一种基于hmm的中文分词方法 |
CN108733665A (zh) * | 2017-04-13 | 2018-11-02 | 艺龙网信息技术(北京)有限公司 | 基于特征和语义的景点信息匹配方法及装置 |
CN109408828A (zh) * | 2018-11-08 | 2019-03-01 | 四川长虹电器股份有限公司 | 用于电视领域语义分析的分词系统 |
CN110147433A (zh) * | 2019-05-21 | 2019-08-20 | 北京鸿联九五信息产业有限公司 | 一种基于字典树的文本模板提取方法 |
CN110175273A (zh) * | 2019-05-22 | 2019-08-27 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机可读存储介质和计算机设备 |
CN111651990A (zh) * | 2020-04-14 | 2020-09-11 | 车智互联(北京)科技有限公司 | 一种实体识别方法、计算设备及可读存储介质 |
CN113722464A (zh) * | 2021-09-14 | 2021-11-30 | 国泰君安证券股份有限公司 | 针对证券智能客服系统实现命名实体识别处理的系统、方法、装置、处理器及其存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7293012B1 (en) * | 2003-12-19 | 2007-11-06 | Microsoft Corporation | Friendly URLs |
CN103440311A (zh) * | 2013-08-27 | 2013-12-11 | 深圳市华傲数据技术有限公司 | 一种地名实体识别的方法及系统 |
CN103678336A (zh) * | 2012-09-05 | 2014-03-26 | 阿里巴巴集团控股有限公司 | 实体词识别方法及装置 |
CN104615590A (zh) * | 2015-03-02 | 2015-05-13 | 浪潮集团有限公司 | 一种项目名称的提取方法和装置 |
-
2015
- 2015-07-28 CN CN201510448878.6A patent/CN105045888A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7293012B1 (en) * | 2003-12-19 | 2007-11-06 | Microsoft Corporation | Friendly URLs |
CN103678336A (zh) * | 2012-09-05 | 2014-03-26 | 阿里巴巴集团控股有限公司 | 实体词识别方法及装置 |
CN103440311A (zh) * | 2013-08-27 | 2013-12-11 | 深圳市华傲数据技术有限公司 | 一种地名实体识别的方法及系统 |
CN104615590A (zh) * | 2015-03-02 | 2015-05-13 | 浪潮集团有限公司 | 一种项目名称的提取方法和装置 |
Non-Patent Citations (1)
Title |
---|
张小欢: "中文分词系统的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106372187A (zh) * | 2016-08-31 | 2017-02-01 | 中译语通科技(北京)有限公司 | 一种面向大数据的跨语言检索方法 |
CN106909630A (zh) * | 2017-01-26 | 2017-06-30 | 武汉奇米网络科技有限公司 | 基于动态词库的敏感词过滤方法及系统 |
CN108733665A (zh) * | 2017-04-13 | 2018-11-02 | 艺龙网信息技术(北京)有限公司 | 基于特征和语义的景点信息匹配方法及装置 |
CN107861940A (zh) * | 2017-10-10 | 2018-03-30 | 昆明理工大学 | 一种基于hmm的中文分词方法 |
CN109408828A (zh) * | 2018-11-08 | 2019-03-01 | 四川长虹电器股份有限公司 | 用于电视领域语义分析的分词系统 |
CN110147433A (zh) * | 2019-05-21 | 2019-08-20 | 北京鸿联九五信息产业有限公司 | 一种基于字典树的文本模板提取方法 |
CN110175273A (zh) * | 2019-05-22 | 2019-08-27 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机可读存储介质和计算机设备 |
CN110175273B (zh) * | 2019-05-22 | 2021-09-07 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机可读存储介质和计算机设备 |
CN111651990A (zh) * | 2020-04-14 | 2020-09-11 | 车智互联(北京)科技有限公司 | 一种实体识别方法、计算设备及可读存储介质 |
CN111651990B (zh) * | 2020-04-14 | 2024-03-15 | 车智互联(北京)科技有限公司 | 一种实体识别方法、计算设备及可读存储介质 |
CN113722464A (zh) * | 2021-09-14 | 2021-11-30 | 国泰君安证券股份有限公司 | 针对证券智能客服系统实现命名实体识别处理的系统、方法、装置、处理器及其存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105045888A (zh) | 一种用于hmm的分词训练语料标注方法 | |
CN1894686A (zh) | 用于文档构造的文本分段和主题注释 | |
US20090144277A1 (en) | Electronic table of contents entry classification and labeling scheme | |
CN104298662A (zh) | 一种基于有机物命名实体的机器翻译方法及翻译系统 | |
CN110413764B (zh) | 基于预建词库的长文本企业名称识别方法 | |
CN110175334B (zh) | 基于自定义的知识槽结构的文本知识抽取系统和方法 | |
US20220130163A1 (en) | System for template invariant information extraction | |
CN104077346A (zh) | 文档制作支援装置、方法及程序 | |
CN107357765A (zh) | Word文档碎片化方法及装置 | |
CN112966117A (zh) | 实体链接方法 | |
CN105095196A (zh) | 文本中新词发现的方法和装置 | |
CN115618866A (zh) | 一种工程项目投标文件的段落识别与主题提取方法及系统 | |
Konrad et al. | From form to function. A database approach to handle lexicon building and spotting token forms in sign languages | |
CN110008473B (zh) | 一种基于迭代方法的医疗文本命名实体识别标注方法 | |
CN113642320A (zh) | 文档目录结构的提取方法、装置、设备和介质 | |
CN1102779C (zh) | 中文简繁体字文件转换装置 | |
CN105608137A (zh) | 一种提取身份标识的方法和装置 | |
CN111274354B (zh) | 一种裁判文书结构化方法及装置 | |
Hamann et al. | Detailed mark‐up of semi‐monographic legacy taxonomic works using FlorML | |
CN113474767A (zh) | 文件检索装置、文件检索系统、文件检索程序及文件检索方法 | |
CN111368547A (zh) | 基于语义解析的实体识别方法、装置、设备和存储介质 | |
CN111310473A (zh) | 文本纠错方法及其模型训练的方法、装置 | |
CN109918632A (zh) | 基于场景模板的文献撰写辅助方法 | |
CN113806311B (zh) | 基于深度学习的文件分类方法、装置、电子设备及介质 | |
Song et al. | POSBIOTM-NER: a machine learning approach for bio-named entity recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20151111 |