CN105718586A - 分词的方法及装置 - Google Patents

分词的方法及装置 Download PDF

Info

Publication number
CN105718586A
CN105718586A CN201610051438.1A CN201610051438A CN105718586A CN 105718586 A CN105718586 A CN 105718586A CN 201610051438 A CN201610051438 A CN 201610051438A CN 105718586 A CN105718586 A CN 105718586A
Authority
CN
China
Prior art keywords
word
participle
corpus
mark
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610051438.1A
Other languages
English (en)
Other versions
CN105718586B (zh
Inventor
黄金才
陈发君
刘忠
程光权
朱承
修保新
陈超
冯旸赫
孟果
易作天
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changsha Yuanben Information Technology Co Ltd
National University of Defense Technology
Original Assignee
Changsha Yuanben Information Technology Co Ltd
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changsha Yuanben Information Technology Co Ltd, National University of Defense Technology filed Critical Changsha Yuanben Information Technology Co Ltd
Priority to CN201610051438.1A priority Critical patent/CN105718586B/zh
Publication of CN105718586A publication Critical patent/CN105718586A/zh
Application granted granted Critical
Publication of CN105718586B publication Critical patent/CN105718586B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种分词方法和装置,装置包括用于训练词标注模型的分词&标注模块和CRF训练模块,以及用于分词应用的初始分词模块、词标注模块和词合并模块。首先使用CRF训练词标注模型:训练词标注模型的方法为:采集语料库,并使用N?最短路径分词方法对语料库进行分词,然后使用领域词典对语料库分词结果进行标注,将标注后的语料库使用CRF工具进行训练得到词标注模型;得到词标注模型后即可进入分词应用,分词应用其方法为:首先使用N?最短路径分词方法对文本进行初始分词,对初始分词结果基于词标注模型进行序列标注,将包含特定标注的词进行合并得到最终分词结果。采用CRF进行词标注,考虑了全局上下文信息,有利于提高词合并的准确性。

Description

分词的方法及装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种分词的方法及装置。
背景技术
随着互联网的快速发展,信息服务变得越来越普遍。信息服务提供商提供信息服务时,通常会挖掘实体(现实世界中的客观事物称为实体,例如概念、事物或事件等)之间的关联关系,并根据实体之间的关联关系提供信息服务。例如,“南方航空”是“一带一路”的概念股票,二者是实体的实例并且之间存在联系,基于这种关联关系通过检索“一带一路”可以获取与其相关的概念股票。实体之间的关联关系通常是在文本分词基础之上通过计算共现等测度获得,因此分词性能的好坏直接影响后续处理及最终的关联结果。
在现有技术中通常有基于词典的分词和基于统计模型的分词,如公开号为102982099A的专利文献,提供了一种个性化并行分词处理系统及其处理方法。基于词典的分词方法分词效率较高但准确性较差,而基于统计模型的分词方法可以自动学习词语切分的规则,在歧义切分效果上较好,但受限于训练语料分词结果在粒度和一致性上不够稳定,性能较差。基于N-最短路径的分词方法结合词典与统计模型在分词速度和准确度两方面都取得了较好效果,但受限词典与统计模型,对于词的切分常常过于细,例如“可穿戴设备”被切分为“可”、“穿戴”和“设备”,但在特定领域内常常需要将“可穿戴设备”作为一个整词来与其他实体建立关联。通常可采用领域词典的方式对初始分词结果中的词进行机械合并,但这种方法只能合并领域词典中包含的词,例如词典中只包含“广东旅游”、“北京旅游”则只能合并这两个词而不能合并“西藏旅游”,并且常由于不考虑上下文信息而导致错误的合并。
N-最短路径以及其他基于词典和统计模型的分词方法对特定领域的词常常切分过细导致部分实体之间的关联无法建立,例如在金融领域,一些概念与股票的名词通常是由几个较短的单词组合而成,在切分过程中很容易被切分成多个较短的单词,这对这些特定领域内实体关联的建立非常不利。而采用领域词典的方式虽然能合并词典中包含的词,但常常导致错误的合且不具有泛化能力。
发明内容
针对现有技术存在的缺陷,本发明提出一种分词的方法和装置,在原始分词的基础上考虑上下文信息从而可使特定领域内的实体在分词结果中正确切分,并通过对领域词典中的词模式进行自动学习可识别出具有相同模式的词从而进行正确切分,例如词典中只包含“广东旅游”、“北京旅游”,对于“西藏旅游”也能正确切出来,从而提升实体之间的关联效果。
本发明的技术方案是:首先使用条件随机场(简称CRF)训练词标注模型:训练词标注模型的方法为:采集语料库,并使用N-最短路径分词方法对语料库进行分词,然后使用领域词典对语料库分词结果进行标注,将标注后的语料库使用CRF工具进行训练得到词标注模型;得到词标注模型后即可进入分词应用,分词应用其方法为:首先使用N-最短路径分词方法对文本进行初始分词,对初始分词结果基于词标注模型进行序列标注,将包含特定标注的词进行合并得到最终分词结果。关于领域词典,就是特定领域的定制词典,就是具体应用领域中,需要在分词中完整切分的词,例如金融领域中的相关概念词如“一带一路”、股票全称以及简称等。
具体地,一种分词方法,包括词标注模型训练和分词应用两个阶段,首先使用条件随机场(简称CRF)训练词标注模型,得到词标注模型后即可进入分词应用。
所述词标注模型训练包括以下步骤:
S1.采集语料库和准备语料库所属领域的领域词典
随机选取一定时期内一技术领域内的新闻语料,并选取该领域的领域词典;
S2.对语料库进行分词并进行词性标注,得到分词列表;
分词所采用的方法可以选N-最短路径分词方法、最短路径分词方法、正向最大匹配分词方法、逆向最大匹配分词方法、双向最大匹配分词方法、隐马尔科夫模型分词方法或条件随机场模型分词方法;对语料库分词结果进行词性标注所采用的方法为隐马尔科夫模型标注、最大熵模型标注或条件随机场模型标注。
S3.根据领域词典对步骤S2的分词结果采用“BIO”标记进行标注得到训练语料;
①遍历分词列表:对词进行向后取N个词进行组合,遇到标点符号则停止,每个词最多可产生N-1个词组合,得到当前词的词组合列表;这里的分词列表是步骤S2步骤中经分词后得到。
②遍历词组合列表,将词组合与领域词典进行比较,获取包含于领域词典中的最长词组合;
③若最长词组合存在,则对最长词组合中包含的第一个词标注为“B”,其他词标注为“I”;
④若当前词的最长词组合不存在,则将当前词标注为“O”;
⑤将标注结果保存成CRF工具所要求的格式;
S4.采用CRF工具对训练语料进行训练得到词标注模型;
S5.输出词标注模型,完成模型训练;
所述分词应用包括以下步骤:
a)读取文本,加载词标注模型,采用与模型训练其步骤S2中相同的方法对文本进行初始分词及词性标注,得到初始分词列表;
b)基于初始分词列表构建特征表;
特征表是一个M*3大小的二维列表T[M][3],其中M为分词列表的长度;遍历初始分词列表,对于第i个词,将该词的字符记录在T[i][1],词性记录在T[i][2],其中假设列表的索引从1开始;
c)对特征表T使用模型训练中得到的词标注模型进行标注,将标注结果保存在特征表对应位置的第三列;标注过程采用维特比解码算法;
d)根据词标注结果进行词合并
①初始化分词结果列表r;
②遍历特征表T,假设当前位置为i,若T[i][3]为“B”标注,则继续查找邻接的最后一个“I”标注的位置j,将i到j之间的词合并为一个词,加入到分词结果列表r并更新遍历位置为j+1;
③若否即T[i][3]不为“B”标注则直接将当前词加入到r;
e)输出最终分词结果。
本发明提供一种分词装置,包括用于模型训练阶段的分词&标注模块和CRF训练模块,以及用于分词应用阶段的初始分词模块、词标注模块和词合并模块;
所述分词&标注模块对采集的语料库进行分词然后对分词结果进行前后组合并使用领域词典进行标注,得到用于CRF训练的标注训练集;CRF训练模块配置特征模板并使用CRF工具对标注训练集进行训练得到词标注模型,并将词标注模型以文件形式保存用于分词应用;
所述初始分词模块对输入文本进行初始切分和词性标注,得到初始分词信息列表;词标注模块对初始分词信息列表构建特征表,然后加载词标注模型使用维特比算法对特征表进行标注,并将标注结果保存在特征表的最后一列;词合并模块对特征表的最后一列标注结果进行分析,对于符合{BI+}(表示以B标注开始,后面接一个到多个I标注)标注序列的若干词将其合并为新词,得到最终分词结果进行输出。
其中,所述分词&标注模块对采集的语料库采用N-最短路径分词,采用隐马尔科夫模型进行词性标注。
所述初始分词模块对输入文本采用了N-最短路径分词,采用隐马尔科夫模型进行词性标注。
本发明的有益技术效果:
1.采用多层分词,可根据需要控制分词的切分粒度;
2.采用CRF进行词标注,考虑了全局上下文信息,有利于提高词合并的准确性;
3.通过CRF训练的词标注模型可自动学习语料库中的规则模式,对相同模式但未包含于领域词典中的词也可识别出来,具有一定的新词发现能力。
附图说明
图1为本发明一种分词装置的功能模块图
图2为词标注模型训练流程图
图3为训练语料标注流程图
图4为分词应用流程图
具体实施方式
下面结合附图,对本发明作进一步的说明:
本发明根据应用领域的领域词典(例如对于金融领域,领域词典可包含相关概念词如“一带一路”、股票全称以及简称等)对语料库进行标注并采用CRF进行训练得到词标注模型,然后采用常用分词算法对文本进行初始切分,对初始切分结果基于词标注模型进行合并得到最终的分词结果。
本发明包括模型训练(即词标注模型训练)与分词应用两个阶段,其中词标注模型训练阶段采用CRF工具离线训练词标注模型用于分词应用阶段的词标注,由分词&标注模块和CRF训练模块两部分组成;分词应用阶段实时对文本进行分词应用,包括初始分词模块、词标注模块和词合并模块,如图1所示。
模型训练阶段:分词&标注模块对采集的语料库使用常规分词技术进行分词然后对分词结果进行前后组合并使用领域词典进行标注,得到用于CRF训练的标注训练集;CRF训练模块配置特征模板并使用CRF工具对标注训练集进行训练得到词标注模型,并将词标注模型以文件形式保存用于分词应用。模型训练阶段只需在分词应用阶段之前进行一次即可,得到词标注模型进行保存。
所述初始分词模块对输入文本进行初始切分和词性标注,得到初始分词信息列表;词标注模块对初始分词信息列表构建特征表,然后加载词标注模型使用维特比算法对特征表进行标注,并将标注结果保存在特征表的最后一列;词合并模块对特征表的最后一列标注结果进行分析,对于符合{BI+}(表示以B标注开始,后面接一个到多个I标注)标注序列的若干词将其合并为新词,得到最终分词结果进行输出。
一种分词方法,包括词标注模型训练和分词应用两个阶段,
参照图2,词标注模型训练包括以下步骤:
a)采集语料库和准备领域词典(指在具体应用领域中,需要在分词中完整切分的词,例如金融领域中的相关概念词、股票全称以及简称等)。随机选取一定时期内特定领域内的新闻语料,例如财经领域。领域词典可选取特定领域内的实体以及其他业务需要的词。比如先从互联网将领域类相关的网页爬取下来存储在数据库中,然后从其中随机选取。
b)对语料库使用常用分词技术进行分词并进行词性标注。在案例实施中采用了N-最短路径分词,采用隐马尔科夫模型进行词性标注。
c)根据领域词典对分词结果采用“BIO”标记进行标注得到训练语料,参照图3,其步骤为:
①遍历分词列表,对词进行向后取N个词进行组合,遇到标点符号则停止,N可根据需要设置,每个词最多可产生N-1个词组合,得到当前词的词组合列表。在实施中采用了N=4,即最长4个词进行组合,例如对于“为发展智能装备和可穿戴设备的崛起奠定了良好的产业环境。”,经b)步骤分词后结果为“为发展智能装备和可穿戴设备的崛起奠定了良好的产业环境。”,当前词的词组合列表为“可”,则“可”的向后组合列表“可穿戴”、“可穿戴设备”、“可穿戴设备的”。
②遍历词组合列表,将词组合与领域词典进行比较,获取包含于领域词典中的最长词组合。例如上述“可”的最长词组合为“可穿戴设备”。
③若最长词组合存在,则对组合中包含的第一个词标注为“B”,其他词标注为“I”。例如上述“可穿戴设备”中的“可”的标注为“B”,“穿戴”和“设备”的标注为“I”。
④若当前词的最长词组合不存在,则将当前词标注为“O”。例如上述的“发展”的最长词组合不存在,其标注为“O”。
⑤将标注结果保存成CRF工具所要求的格式。在案例实施中采用了CRF++工具进行模型训练,训练语料采用“词词性标注”的格式保存,每个词单独一行,句子间以空行分隔。上述“为发展智能装备和可穿戴设备的崛起奠定了良好的产业环境。”在标注结果中保存为如下形式:
.....
为po
发展vno
智能nB
装备nI
和co
可vB
穿戴vnI
设备nI
的uo
崛起vno
奠定vo
了uo
良好ao
的uo
产业no
环境no
。wo
.....
其中“.....”表示其他语句,句子间以空行分离,非空行的第一列为词、第二列为词性、第三列为标注,例如行“智能nB”第一列为词“智能”、第二列为词性“n”(名词)、第三列为标注“B”。
d)采用CRF工具对训练语料进行训练得到词标注模型。在案例实施中采用了CRF++工具,特征选取当前词及前后两个词的字符及词性、当前词与前后一个词的一元组合、当前词及前后两个词共五个词之间相邻两两之间词性组合一共16个特征,特征模板定义如下:
其中“#Unigram”代表一元模型,“#Bigram”代表二元模型。“#Unigram”下定义了“U00”-“U15”16个特征,方括号中的第一个数字表示词在标注集中的行位置,“0”表示当前行,“-1”表示前一行,“1”表示后一行,以此内推;方括号中的第二个数字表示所在行的列数,“0”表示第一列(即词),“1”表示第二列(即词性),例如“U03:%x[1,0]”表示第3个特征取当前行的下一行的词。“/”表示特征组合,例如“U12:%x[-2,1]/%x[-1,1]”表示第12个特征取当前行的前面第2行的词性以及前面第1行的词性的组合。“#Bigram”下仅包含“B”表示未使用二元模型。对于上述“为发展智能装备和可穿戴设备的崛起奠定了良好的产业环境。”的标注结果,假设当前词为“穿戴”,则其通过特征模板提取的特征为
e)输出词标注模型。
参照图4,分词应用包括以下步骤:
a)读取文本,加载词标注模型,采用与模型训练中相同的分词技术对文本进行初始分词及词性标注,得到分词列表(包含词性信息)。例如“智能手环是一种可穿戴设备。”进行初始分词及词性标注后的结果为[智能/n,手环/nz,是/v,一/m,种/q,可/v,穿戴/vn,设备/n,。/w],其中每个词以“,”分隔,“/”之前为词如“智能”,“/”之后为词性如“n”,
b)基于分词列表构建特征表。特征表是一个N*3大小的二维列表T[N][3],其中N为分词列表的长度。遍历分词列表,对于第i个词,将该词的字符记录在T[i][1],词性记录在T[i][2],其中假设列表的索引从1开始。例如对于a)中实例的第一个词“智能/n”,T[1][1]=“智能”,T[1][2]=“n”。
c)对特征列表T使用词标注模型进行标注,将标注结果保存在特征表对应位置的第三列。标注过程采用维特比解码算法。例如对于a)中实例的标注结果为[智能/n/B,手环/nz/I,是/v/O,一/m/O,种/q/O,可/v/B,穿戴/vn/I,设备/n/I,。/w/O],其中以“,”分隔每个为一个T[i],以“/”为分隔每个为T[i]的对应列其中第三列为标注,如T[1][1]=“智能”、T[1][2]=“n”、T[1][3]=“B”为标注,以此类推。
d)根据词标注结果进行词合并。①初始化分词结果列表r。②遍历特征表T,假设当前位置为i,若T[i][3]为“B”标注,则继续查找邻接的最后一个“I”标注的位置j,将i到j(包括i、j)之间的词合并为一个词,加入到r并更新遍历位置为j+1。③若否则直接将当前词加入到r。例如对于a)中实例的标注结果中的“智能/n/B”与“手环/nz/I”合并得到新词“智能手环”,“可/v/B”、“穿戴/vn/I”与“设备/n/I”合并得到新词“可穿戴设备”,其他标注为“O”的词保持不变,合并后得到最终分词结果[智能手环,是,一,种,可穿戴设备,。]。
e)输出最终分词结果。

Claims (5)

1.分词的方法,其特征在于,首先使用条件随机场进行词标注模型训练,得到词标注模型后即可进入分词应用;
所述词标注模型训练包括以下步骤:
S1.采集语料库和准备语料库所属领域的领域词典;
随机选取一定时期内一技术领域内的新闻语料,并选取该领域的领域词典;
S2.对语料库进行分词并进行词性标注,得到分词列表;
S3.根据领域词典对步骤S2的分词结果采用“BIO”标记进行标注得到训练语料;
①遍历分词列表:对词进行向后取N个词进行组合,遇到标点符号则停止,每个词最多可产生N-1个词组合,得到当前词的词组合列表;
②遍历词组合列表,将词组合与领域词典进行比较,获取包含于领域词典中的最长词组合;
③若最长词组合存在,则对最长词组合中包含的第一个词标注为“B”,其他词标注为“I”;
④若当前词的最长词组合不存在,则将当前词标注为“O”;
⑤将标注结果保存成CRF工具所要求的格式;
S4.采用CRF工具对训练语料进行训练得到词标注模型;
S5.输出词标注模型,完成模型训练;
所述分词应用包括以下步骤:
a)读取文本,加载词标注模型,采用与模型训练其步骤S2中相同的方法对文本进行初始分词及词性标注,得到初始分词列表;
b)基于初始分词列表构建特征表;
特征表是一个M*3大小的二维列表T[M][3],其中M为分词列表的长度;遍历初始分词列表,对于第i个词,将该词的字符记录在T[i][1],词性记录在T[i][2],其中假设列表的索引从1开始;
c)对特征表T使用模型训练中得到的词标注模型进行标注,将标注结果保存在特征表对应位置的第三列;标注过程采用维特比解码算法;
d)根据词标注结果进行词合并
①初始化分词结果列表r;
②遍历特征表T,假设当前位置为i,若T[i][3]为“B”标注,则继续查找邻接的最后一个“I”标注的位置j,将i到j之间的词合并为一个词,加入到分词结果列表r并更新遍历位置为j+1;
③若否则直接将当前词加入到r;
e)输出最终分词结果。
2.根据权利要求1所述的分词的方法,其特征在于,词标注模型训练方法中,步骤S2对语料库进行初始分词所采用的方法为N-最短路径分词方法、最短路径分词方法、正向最大匹配分词方法、逆向最大匹配分词方法、双向最大匹配分词方法、隐马尔科夫模型分词方法或条件随机场模型分词方法;词标注模型训练方法中,步骤S2对语料库分词结果进行词性标注所采用的方法为隐马尔科夫模型标注、最大熵模型标注或条件随机场模型标注。
3.分词装置,其特征在于,包括用于训练词标注模型的分词&标注模块和CRF训练模块,以及用于分词应用的初始分词模块、词标注模块和词合并模块;
所述分词&标注模块对采集的语料库进行分词然后对分词结果进行前后组合并使用领域词典进行标注,得到用于CRF训练的标注训练集;CRF训练模块配置特征模板并使用CRF工具对标注训练集进行训练得到词标注模型,并将词标注模型以文件形式保存用于分词应用;
所述初始分词模块对输入文本进行初始切分和词性标注,得到初始分词信息列表;词标注模块对初始分词信息列表构建特征表,然后加载词标注模型使用维特比算法对特征表进行标注,并将标注结果保存在特征表的最后一列;词合并模块对特征表的最后一列标注结果进行分析,对于符合{BI+}标注序列的若干词将其合并为新词,得到最终分词结果进行输出。
4.根据权利要求3所述的分词装置,其特征在于,所述分词&标注模块对采集的语料库采用N-最短路径分词,采用隐马尔科夫模型进行词性标注。
5.根据权利要求3所述的分词装置,其特征在于,所述初始分词模块对输入文本采用了N-最短路径分词,采用隐马尔科夫模型进行词性标注。
CN201610051438.1A 2016-01-26 2016-01-26 分词的方法及装置 Active CN105718586B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610051438.1A CN105718586B (zh) 2016-01-26 2016-01-26 分词的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610051438.1A CN105718586B (zh) 2016-01-26 2016-01-26 分词的方法及装置

Publications (2)

Publication Number Publication Date
CN105718586A true CN105718586A (zh) 2016-06-29
CN105718586B CN105718586B (zh) 2018-12-28

Family

ID=56154912

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610051438.1A Active CN105718586B (zh) 2016-01-26 2016-01-26 分词的方法及装置

Country Status (1)

Country Link
CN (1) CN105718586B (zh)

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407186A (zh) * 2016-10-09 2017-02-15 新译信息科技(深圳)有限公司 建立分词模型的方法及装置
CN107092669A (zh) * 2017-04-11 2017-08-25 江苏东方金钰智能机器人有限公司 一种建立机器人智能交互的方法
CN107153640A (zh) * 2017-05-08 2017-09-12 成都准星云学科技有限公司 一种面向初等数学领域的分词方法
CN107247706A (zh) * 2017-06-16 2017-10-13 中国电子技术标准化研究院 文本断句模型建立方法、断句方法、装置及计算机设备
CN107291695A (zh) * 2017-06-28 2017-10-24 三角兽(北京)科技有限公司 信息处理装置及其分词处理方法
CN107402916A (zh) * 2017-07-17 2017-11-28 广州特道信息科技有限公司 中文文本的分词方法及装置
CN107423288A (zh) * 2017-07-05 2017-12-01 达而观信息科技(上海)有限公司 一种基于无监督学习的中文分词系统及方法
CN107622050A (zh) * 2017-09-14 2018-01-23 武汉烽火普天信息技术有限公司 基于Bi‑LSTM和CRF的文本序列标注系统及方法
CN107832307A (zh) * 2017-11-28 2018-03-23 南京理工大学 基于无向图与单层神经网络的中文分词方法
CN108021552A (zh) * 2017-11-09 2018-05-11 国网浙江省电力公司电力科学研究院 一种电力系统操作票内容提取方法及系统
CN108090045A (zh) * 2017-12-20 2018-05-29 珠海市君天电子科技有限公司 一种标注模型的建立方法、分词方法及装置
CN108255815A (zh) * 2018-02-07 2018-07-06 苏州金螳螂文化发展股份有限公司 文本的分词方法和装置
CN108460014A (zh) * 2018-02-07 2018-08-28 百度在线网络技术(北京)有限公司 企业实体的识别方法、装置、计算机设备及存储介质
CN108549635A (zh) * 2018-04-09 2018-09-18 北京信息科技大学 一种专利文献领域术语抽取方法
CN108628813A (zh) * 2017-03-17 2018-10-09 北京搜狗科技发展有限公司 处理方法和装置、用于处理的装置
CN108664468A (zh) * 2018-05-02 2018-10-16 武汉烽火普天信息技术有限公司 一种基于词典和语义消歧的人名识别方法和装置
CN109033427A (zh) * 2018-08-10 2018-12-18 北京字节跳动网络技术有限公司 股票的筛选方法及装置、计算机设备及可读存储介质
CN109284763A (zh) * 2017-07-19 2019-01-29 阿里巴巴集团控股有限公司 一种生成分词训练数据的方法和服务器
CN109408828A (zh) * 2018-11-08 2019-03-01 四川长虹电器股份有限公司 用于电视领域语义分析的分词系统
CN109543175A (zh) * 2018-10-11 2019-03-29 北京诺道认知医学科技有限公司 一种查找同义词的方法及装置
CN109858010A (zh) * 2018-11-26 2019-06-07 平安科技(深圳)有限公司 领域新词识别方法、装置、计算机设备和存储介质
CN109977420A (zh) * 2019-04-12 2019-07-05 出门问问信息科技有限公司 离线语义识别调整方法、装置、设备及存储介质
CN109992766A (zh) * 2017-12-29 2019-07-09 北京京东尚科信息技术有限公司 提取目标词的方法和装置
CN110175246A (zh) * 2019-04-09 2019-08-27 山东科技大学 一种从视频字幕中提取概念词的方法
CN110287482A (zh) * 2019-05-29 2019-09-27 西南电子技术研究所(中国电子科技集团公司第十研究所) 半自动化分词语料标注训练装置
CN110297913A (zh) * 2019-06-12 2019-10-01 中电科大数据研究院有限公司 一种电子公文实体抽取方法
CN110502630A (zh) * 2019-07-31 2019-11-26 北京字节跳动网络技术有限公司 信息处理方法及设备
CN111160024A (zh) * 2019-12-30 2020-05-15 广州广电运通信息科技有限公司 基于统计的中文分词方法、系统、装置和存储介质
CN111950274A (zh) * 2020-07-31 2020-11-17 中国工商银行股份有限公司 一种专业领域语料的中文分词方法及装置
CN112017786A (zh) * 2020-07-02 2020-12-01 厦门市妇幼保健院(厦门市计划生育服务中心) 基于es的自定义分词器
CN112528651A (zh) * 2021-02-08 2021-03-19 深圳市阿卡索资讯股份有限公司 一种智能批改方法、系统、电子设备及存储介质
WO2021217936A1 (zh) * 2020-04-29 2021-11-04 深圳壹账通智能科技有限公司 基于并词处理的新词发现方法、装置和计算机设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060253274A1 (en) * 2005-05-05 2006-11-09 Bbn Technologies Corp. Methods and systems relating to information extraction
CN103020230A (zh) * 2012-12-14 2013-04-03 中国科学院声学研究所 一种语义模糊匹配方法
CN103164471A (zh) * 2011-12-15 2013-06-19 盛乐信息技术(上海)有限公司 视频文本标签的推荐方法及系统
CN104268160A (zh) * 2014-09-05 2015-01-07 北京理工大学 一种基于领域词典和语义角色的评价对象抽取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060253274A1 (en) * 2005-05-05 2006-11-09 Bbn Technologies Corp. Methods and systems relating to information extraction
CN103164471A (zh) * 2011-12-15 2013-06-19 盛乐信息技术(上海)有限公司 视频文本标签的推荐方法及系统
CN103020230A (zh) * 2012-12-14 2013-04-03 中国科学院声学研究所 一种语义模糊匹配方法
CN104268160A (zh) * 2014-09-05 2015-01-07 北京理工大学 一种基于领域词典和语义角色的评价对象抽取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
孟洪宇: ""基于条件随机场的《伤寒论》中医术语自动识别研究"", 《中国优秀硕士学位论文全文数据库(电子期刊) 医药卫生科技辑》 *
廖文平: ""基于CRF的中文地名识别研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407186A (zh) * 2016-10-09 2017-02-15 新译信息科技(深圳)有限公司 建立分词模型的方法及装置
CN106407186B (zh) * 2016-10-09 2019-04-30 新译信息科技(深圳)有限公司 建立分词模型的方法及装置
CN108628813A (zh) * 2017-03-17 2018-10-09 北京搜狗科技发展有限公司 处理方法和装置、用于处理的装置
CN108628813B (zh) * 2017-03-17 2022-09-23 北京搜狗科技发展有限公司 处理方法和装置、用于处理的装置
CN107092669A (zh) * 2017-04-11 2017-08-25 江苏东方金钰智能机器人有限公司 一种建立机器人智能交互的方法
CN107153640A (zh) * 2017-05-08 2017-09-12 成都准星云学科技有限公司 一种面向初等数学领域的分词方法
CN107247706A (zh) * 2017-06-16 2017-10-13 中国电子技术标准化研究院 文本断句模型建立方法、断句方法、装置及计算机设备
CN107291695A (zh) * 2017-06-28 2017-10-24 三角兽(北京)科技有限公司 信息处理装置及其分词处理方法
CN107423288A (zh) * 2017-07-05 2017-12-01 达而观信息科技(上海)有限公司 一种基于无监督学习的中文分词系统及方法
CN107402916A (zh) * 2017-07-17 2017-11-28 广州特道信息科技有限公司 中文文本的分词方法及装置
CN109284763A (zh) * 2017-07-19 2019-01-29 阿里巴巴集团控股有限公司 一种生成分词训练数据的方法和服务器
CN107622050A (zh) * 2017-09-14 2018-01-23 武汉烽火普天信息技术有限公司 基于Bi‑LSTM和CRF的文本序列标注系统及方法
CN107622050B (zh) * 2017-09-14 2021-02-26 武汉烽火普天信息技术有限公司 基于Bi-LSTM和CRF的文本序列标注系统及方法
CN108021552A (zh) * 2017-11-09 2018-05-11 国网浙江省电力公司电力科学研究院 一种电力系统操作票内容提取方法及系统
CN107832307B (zh) * 2017-11-28 2021-02-23 南京理工大学 基于无向图与单层神经网络的中文分词方法
CN107832307A (zh) * 2017-11-28 2018-03-23 南京理工大学 基于无向图与单层神经网络的中文分词方法
CN108090045A (zh) * 2017-12-20 2018-05-29 珠海市君天电子科技有限公司 一种标注模型的建立方法、分词方法及装置
CN108090045B (zh) * 2017-12-20 2021-04-30 珠海市君天电子科技有限公司 一种分词方法、装置及可读存储介质
CN109992766A (zh) * 2017-12-29 2019-07-09 北京京东尚科信息技术有限公司 提取目标词的方法和装置
CN109992766B (zh) * 2017-12-29 2024-02-06 北京京东尚科信息技术有限公司 提取目标词的方法和装置
CN108460014B (zh) * 2018-02-07 2022-02-25 百度在线网络技术(北京)有限公司 企业实体的识别方法、装置、计算机设备及存储介质
CN108460014A (zh) * 2018-02-07 2018-08-28 百度在线网络技术(北京)有限公司 企业实体的识别方法、装置、计算机设备及存储介质
CN108255815A (zh) * 2018-02-07 2018-07-06 苏州金螳螂文化发展股份有限公司 文本的分词方法和装置
CN108549635A (zh) * 2018-04-09 2018-09-18 北京信息科技大学 一种专利文献领域术语抽取方法
CN108664468A (zh) * 2018-05-02 2018-10-16 武汉烽火普天信息技术有限公司 一种基于词典和语义消歧的人名识别方法和装置
CN109033427A (zh) * 2018-08-10 2018-12-18 北京字节跳动网络技术有限公司 股票的筛选方法及装置、计算机设备及可读存储介质
CN109543175A (zh) * 2018-10-11 2019-03-29 北京诺道认知医学科技有限公司 一种查找同义词的方法及装置
CN109408828A (zh) * 2018-11-08 2019-03-01 四川长虹电器股份有限公司 用于电视领域语义分析的分词系统
CN109858010B (zh) * 2018-11-26 2023-01-24 平安科技(深圳)有限公司 领域新词识别方法、装置、计算机设备和存储介质
CN109858010A (zh) * 2018-11-26 2019-06-07 平安科技(深圳)有限公司 领域新词识别方法、装置、计算机设备和存储介质
CN110175246A (zh) * 2019-04-09 2019-08-27 山东科技大学 一种从视频字幕中提取概念词的方法
CN109977420A (zh) * 2019-04-12 2019-07-05 出门问问信息科技有限公司 离线语义识别调整方法、装置、设备及存储介质
CN109977420B (zh) * 2019-04-12 2023-04-07 出门问问创新科技有限公司 离线语义识别调整方法、装置、设备及存储介质
CN110287482B (zh) * 2019-05-29 2022-07-08 西南电子技术研究所(中国电子科技集团公司第十研究所) 半自动化分词语料标注训练装置
CN110287482A (zh) * 2019-05-29 2019-09-27 西南电子技术研究所(中国电子科技集团公司第十研究所) 半自动化分词语料标注训练装置
CN110297913A (zh) * 2019-06-12 2019-10-01 中电科大数据研究院有限公司 一种电子公文实体抽取方法
CN110502630B (zh) * 2019-07-31 2022-04-15 北京字节跳动网络技术有限公司 信息处理方法及设备
CN110502630A (zh) * 2019-07-31 2019-11-26 北京字节跳动网络技术有限公司 信息处理方法及设备
CN111160024A (zh) * 2019-12-30 2020-05-15 广州广电运通信息科技有限公司 基于统计的中文分词方法、系统、装置和存储介质
CN111160024B (zh) * 2019-12-30 2023-08-15 广州广电运通信息科技有限公司 基于统计的中文分词方法、系统、装置和存储介质
WO2021217936A1 (zh) * 2020-04-29 2021-11-04 深圳壹账通智能科技有限公司 基于并词处理的新词发现方法、装置和计算机设备
CN112017786A (zh) * 2020-07-02 2020-12-01 厦门市妇幼保健院(厦门市计划生育服务中心) 基于es的自定义分词器
CN111950274A (zh) * 2020-07-31 2020-11-17 中国工商银行股份有限公司 一种专业领域语料的中文分词方法及装置
CN112528651A (zh) * 2021-02-08 2021-03-19 深圳市阿卡索资讯股份有限公司 一种智能批改方法、系统、电子设备及存储介质

Also Published As

Publication number Publication date
CN105718586B (zh) 2018-12-28

Similar Documents

Publication Publication Date Title
CN105718586A (zh) 分词的方法及装置
CN107832229A (zh) 一种基于nlp的系统测试用例自动生成方法
Suleiman et al. The use of hidden Markov model in natural ARABIC language processing: a survey
CN105844424A (zh) 基于网络评论的产品质量问题发现及风险评估方法
CN103823857B (zh) 基于自然语言处理的空间信息检索方法
CN108959242A (zh) 一种基于中文字符词性特征的目标实体识别方法及装置
CN105975478A (zh) 一种基于词向量分析的网络文章所属事件的检测方法和装置
CN103077164A (zh) 文本分析方法及文本分析器
CN103440252B (zh) 一种中文句子中并列信息提取方法及装置
CN103020034A (zh) 中文分词方法和装置
CN102693279A (zh) 一种快速计算评论相似度的方法、装置及系统
CN102609427A (zh) 舆情垂直搜索分析系统及方法
CN111177591A (zh) 面向可视化需求的基于知识图谱的Web数据优化方法
CN113312922B (zh) 一种改进的篇章级三元组信息抽取方法
CN106339455A (zh) 基于文本标签特征挖掘的网页正文提取方法
CN106383814A (zh) 一种英文社交媒体短文本分词方法
CN112966525A (zh) 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法
CN112733547A (zh) 一种利用语义依存分析的中文问句语义理解方法
CN107256212A (zh) 中文搜索词智能切分方法
CN111178080B (zh) 一种基于结构化信息的命名实体识别方法及系统
Leonandya et al. A semi-supervised algorithm for Indonesian named entity recognition
CN107797986A (zh) 一种基于lstm‑cnn的混合语料分词方法
CN104346382A (zh) 使用语言查询的文本分析系统和方法
CN110929518A (zh) 一种使用重叠拆分规则的文本序列标注算法
CN112711666B (zh) 期货标签抽取方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant