CN109472020B - 一种特征对齐中文分词方法 - Google Patents

一种特征对齐中文分词方法 Download PDF

Info

Publication number
CN109472020B
CN109472020B CN201811185491.6A CN201811185491A CN109472020B CN 109472020 B CN109472020 B CN 109472020B CN 201811185491 A CN201811185491 A CN 201811185491A CN 109472020 B CN109472020 B CN 109472020B
Authority
CN
China
Prior art keywords
word
binary
words
dictionary
counting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811185491.6A
Other languages
English (en)
Other versions
CN109472020A (zh
Inventor
李智星
冯开来
沈柯
任诗雅
王化明
李苑
孙柱
袁龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201811185491.6A priority Critical patent/CN109472020B/zh
Publication of CN109472020A publication Critical patent/CN109472020A/zh
Application granted granted Critical
Publication of CN109472020B publication Critical patent/CN109472020B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本发明请求保护一种特征对齐中文分词方法,包括:101从标记数据和无标记数据中抽取二元词的特征;102通过地球移动距离(Earth Mover’s Distance,以下简称EMD)方法将标记数据和无标记数据进行特征对齐;103通过分类器xgboost训练经过特征对齐后的标记数据的特征,从而预测无标记数据中二元词成词的概率;104从分类器的结果中抽取一部分二元词与步骤101标记数据的二元词整合作为条件随机场的特征并进行训练;105通过建立的模型,对无标记数据进行序列标注分词。本发明主要是通过EMD对标记数据和无标记数据进行特征对齐,并通过分类器学习来预测二元词的成词概率,然后以堆叠的方式整合了条件随机场形成新的分词器。

Description

一种特征对齐中文分词方法
技术领域
本发明属于自然语言处理领域,具体涉及一种特征对齐中文分词方法。
背景技术
作为语言最基本的单元,单词在文本分析任务中扮演着十分重要的角色。中文分词作为自然语言处理不可缺少的一部分,近年来取得了巨大的发展,并被广泛应用于信息检索、知识抽取和问题回答等各种汉语自然语言处理任务当中。由于标注数据的昂贵成本、单词使用的演变以及不同场景下的不同需求,现有的中文分词方法在实际任务中依旧存在着一些问题。尽管它在规则文本上具有较高的准确率,但在很多情况下,低频词的分割仍然是一个挑战。比如,在没有预定义字典的情况下,地域词“高唐”会被分割成单个字符序列。另外,在没有足够的上下文信息情况下,句子“这次研讨会很成功。”,无论是分成“这次/研讨会/很/成功/。”还是“这次/研讨/会/很/成功/。”都是正确的。因此,汉语分词不仅要考虑句子本身,还要考虑句子所处的语境,包括句子所处的段落、文档甚至语料库。近年来,更多的研究者更倾向于深度学习去挖掘更多的文本信息。当然,基于条件随机场的序列标注方法也是处理中文分词常用到的方法,通过利用足够多的上下文特征,虽然取得了比较好的结果,但是由于条件随机场的性质,参数会呈指数增长,所以直接训练多特征的条件随机场是不明智的。
本专利提出了一种特征对齐中文分词方法对无标记数据进行序列标注分词,在不增加条件随机场特征的基础上,将分类器和基于条件随机场的打标器相结合,同时充分利用了标记数据和未标记数据的丰富特征,并通过EMD将两者之间的特征进行对齐。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种在不增加条件随机场特征的基础之上,堆叠了分类器和基于条件随机场的打标器,同时充分利用了标记数据和未标记数据的丰富特征,并通过EMD对齐两者之间的特征,大大缓解了标记数据和无标记数据之间的特征分布差异的特征对齐中文分词方法。本发明的技术方案如下:
一种特征对齐中文分词方法,其包括以下步骤:
101、从标记数据和无标记数据中抽取二元词的特征;
102、通过EMD地球移动距离方法将标记数据和无标记数据进行特征对齐;
103、通过分类器xgboost训练经过特征对齐后的标记数据的特征,从而预测无标记数据中二元词成词的概率;
104、从分类器的结果中抽取一部分二元词与步骤101标记数据的二元词整合作为条件随机场的特征并进行训练;
105、通过条件随机场构建分词模型,对无标记数据进行序列标注分词。
进一步的,所述步骤101从标记数据和无标记数据中抽取二元词的特征,具体为:
S1011、首先对抽取的二元词进行预处理,在标记数据和无标注数据中的二元词中,将频数为1或者带有标点符号的二元词去掉;
S1012、统计当前二元词在文档中出现的次数;
S1013、计算当前二元词的左字和右字的单字相乘概率,公式为:P单字相乘=P(A)*P(B),其中P(A)表示二元词左字出现的概率,P(B)表示二元词右字出现的概率;
S1014、计算当前二元词的左字和右字之间的互信息,公式为:
Figure GDA0003555668390000021
MI(AB)表示当前二元词的互信息,P(AB)表示当前二元词出现的概率,P(A).表示二元词左字出现的概率,P(B)表示二元词右字出现的概率;
S1015、计算当前二元词和它前面的字之间的信息熵,公式为:
Figure GDA0003555668390000022
P(CAB|AB).表示在当前二元词AB的情况下C出现在AB前面的概率,C表示所有出现在当前二元词AB前面的字的集合;
S1016、计算当前二元词和它后面的字之间的信息熵,公式为:
Figure GDA0003555668390000031
P(ABC|AB)表示在当前二元词AB的情况下C出现在AB后面的概率,C表示所有出现在当前二元词AB后面的字的集合;
S1017、统计当前二元词前面出现标点符号的次数;
S1018、统计当前二元词后面出现标点符号的次数;
S1019、统计当前二元词前面出现数字的次数;
S10110、统计当前二元词后面出现数字的次数;
S10111、判断当前二元词左字是否为数字;
S10112、判断当前二元词右字是否为数字;
S10113、统计当前二元词前面的两个字作为字典词或者字典词的一部分出现的次数;
S10114、统计当前二元词后面的两个字作为字典词或者字典词的一部分出现的次数;
S10115、统计当前二元词前面的一个字和二元词左字组成的词作为字典词或者字典词的一部分出现的次数;
S10116、统计当前二元词右字和二元词后面的一个字组成的词作为字典词或者字典词的一部分出现的次数;
S10117、统计当前二元词前面的两个字和二元词左字组成的词作为字典词或者字典词的一部分出现的次数;
S10118、统计当前二元词右字和二元词后面的两个字组成的词作为字典词或者字典词的一部分出现的次数;
S10119、统计当前二元词出现在句首的次数;
S10120、统计当前二元词出现在句末的次数。
进一步的,所述步骤102需要进行特征对齐的13项特征为:统计当前二元词在文档中出现的次数;统计当前二元词前面出现标点符号的次数;统计当前二元词后面出现标点符号的次数;统计当前二元词前面出现数字的次数;统计当前二元词后面出现数字的次数;统计当前二元词前面的两个字作为字典词或者字典词的一部分出现的次数;统计当前二元词后面的两个字作为字典词或者字典词的一部分出现的次数;统计当前二元词前面的一个字和二元词左字组成的词作为字典词或者字典词的一部分出现的次数;统计当前二元词右字和二元词后面的一个字组成的词作为字典词或者字典词的一部分出现的次数;统计当前二元词前面的两个字和二元词左字组成的词作为字典词或者字典词的一部分出现的次数;统计当前二元词右字和二元词后面的两个字组成的词作为字典词或者字典词的一部分出现的次数;统计当前二元词出现在句首的次数;统计当前二元词出现在句末的次数。
进一步的,所述步骤102通过EMD(地球移动距离)方法将标记数据和无标记数据进行特征对齐,具体为:
S1021、假设来自训练集P的特征有m个,其中
Figure GDA0003555668390000041
pi代表了训练集值,
Figure GDA0003555668390000042
代表训练集值的权重,测试集
Figure GDA0003555668390000043
有n个特征,qn代表测试集的值,
Figure GDA0003555668390000044
表示测试集的权重,用D=[di,j]表示簇pi和qj之间的地表距离,目的是为了找到一个从pi到qj的流量F=[fi,j],使得总成本最小
Figure GDA0003555668390000045
S1022、将成本距离定义为欧氏距离的平方,这样的最小成本策略更加符合预期的效果。
进一步的,所述步骤103通过分类器训练标记数据的特征,并预测无标记数据中二元词成词的概率,具体为:
S1031、特征对齐之后,标注集和无标注数据集中的二元词都可以用19维的向量表示,如果标注集的二元词在标注集的字典中出现,就将它的y标记为1,否则标记为0。利用xgboost分类器对标注集训练并对未标记数据的二元词进行成词概率的预测;
S1032、得到无标记数据集二元词的成词概率后,将概率进行降序排列,通过交叉验证的方法设定阈值从中提取出一定的二元词作为分类的结果,即分类得到的无标记二元新词。
进一步的,所述步骤S1032取前15%将序排列的二元词作为分类的结果,即需要从无标记数据中得到的二元新词。
进一步的,所述步骤104从分类器的结果中抽取一部分二元词与标记数据的二元词整合作为条件随机场的特征并进行训练,具体为:
S1041、将分类器得到的二元新词和标记数据中的二元词融合成新的词典;
S1042、对处理成序列标注的标记数据和未标记数据进行打标,如果当前字和下一个字在二元词字典中,则当前字特征列就标记为1;否则标记为0。
进一步的,所述步骤105通过条件随机场构建分词模型,对无标记数据进行序列标注分词,具体包括:
将标记数据和无标记数据处理成序列标注模型,通过得到的新的词典给序列标注模型赋予特征,如果当前字和下一个字组成的二元词出现在新的字典当中,就在当前字的特征列标1,否则标0,通过条件随机场构建分词模型。
本发明的优点及有益效果如下:
本发明提出了一种特征对齐中文分词方法对无标记数据进行序列标注分词。在不增加条件随机场特征的情况下,抽取了标记数据和无标记数据共19项特征,利用特征对齐的思想通过EMD将标记数据的特征和无标记数据的特征进行对齐,将对齐之后的特征代入xgboost分类器对无标记数据中的二元词成词概率进行预测,将得到的无标记数据中的二元词成词概率进行降序排列,通过交叉验证的方式得到当前数据集下的阈值,并将大于该阈值的二元词和用于训练的标记数据集中的二元词组成新的词典,将新的词典作为条件随机场的特征构建序列标注模型从而进行分词。由于条件随机场的特征只有一列,因此可以有效避免过拟合;同时通过特征对齐的思想,大大缓解了标记数据和无标记数据之间的特征分布差异。
附图说明
图1是本发明提供优选实施例特征对齐中文分词流程图;
图2为本发明中EMD的特征对齐原理图;
图3为本发明整个框架图;
图4为本发明条件随机场中文分词标注图;
图5为本发明特征对齐前后分布差异图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
实施例一
为进一步阐述本发明方案,特以常用的中文分词语料库SIGAN-2005中的PKU文本的标记数据和无标记数据为例对本技术方案进行详尽阐述,参考图1,图1为本实施例提供的一种特征对齐中文分词方法流程图:
步骤1:分别对PKU中的标记数据和无标记数据中前后相邻字组成的二元词进行提取,并统计二元词在文本中出现的次数。如果出现次数为1,则将该二元词去除;如果当前二元词中带有标点符号也将其去除,从而得到标记数据和未标记数据用于构建模型的二元词。
步骤2:对步骤1中标记数据和未标记数据的二元词提取如下19项特征:统计当前二元词在文档中出现的次数;计算当前二元词的左字和右字的单字相乘概率(公式为:P单字相乘=P(A)*P(B),其中P(A)表示二元词左字出现的概率,P(B)表示二元词右字出现的概率);计算当前二元词的左字和右字之间的互信息(公式为:
Figure GDA0003555668390000061
MI(AB)表示当前二元词的互信息,P(AB)表示当前二元词出现的概率,P(A).表示二元词左字出现的概率,P(B)表示二元词右字出现的概率);计算当前二元词和它前面的字之间的信息熵(公式为:
Figure GDA0003555668390000062
P(CAB|AB).表示在当前二元词AB的情况下C出现在AB前面的概率,C表示所有出现在当前二元词AB前面的字的集合);计算当前二元词和它后面的字之间的信息熵(公式为:
Figure GDA0003555668390000071
表示在当前二元词AB的情况下C出现在AB后面的概率,C表示所有出现在当前二元词AB后面的字的集合);统计当前二元词前面出现标点符号的次数;统计当前二元词后面出现标点符号的次数;统计当前二元词前面出现数字的次数;统计当前二元词后面出现数字的次数;判断当前二元词左字是否为数字;判断当前二元词右字是否为数字;统计当前二元词前面的两个字作为字典词或者字典词的一部分出现的次数;统计当前二元词后面的两个字作为字典词或者字典词的一部分出现的次数;统计当前二元词前面的一个字和二元词左字组成的词作为字典词或者字典词的一部分出现的次数;统计当前二元词右字和二元词后面的一个字组成的词作为字典词或者字典词的一部分出现的次数;统计当前二元词前面的两个字和二元词左字组成的词作为字典词或者字典词的一部分出现的次数;统计当前二元词右字和二元词后面的两个字组成的词作为字典词或者字典词的一部分出现的次数;统计当前二元词出现在句首的次数;统计当前二元词出现在句末的次数。从而标记数据和未标记数据中的二元词都可以表示成19维的向量。
步骤3:对于步骤2中抽取的19项特征中,需要进行特征对齐的13项特征为:统计当前二元词在文档中出现的次数;统计当前二元词前面出现标点符号的次数;统计当前二元词后面出现标点符号的次数;统计当前二元词前面出现数字的次数;统计当前二元词后面出现数字的次数;统计当前二元词前面的两个字作为字典词或者字典词的一部分出现的次数;统计当前二元词后面的两个字作为字典词或者字典词的一部分出现的次数;统计当前二元词前面的一个字和二元词左字组成的词作为字典词或者字典词的一部分出现的次数;统计当前二元词右字和二元词后面的一个字组成的词作为字典词或者字典词的一部分出现的次数;统计当前二元词前面的两个字和二元词左字组成的词作为字典词或者字典词的一部分出现的次数;统计当前二元词右字和二元词后面的两个字组成的词作为字典词或者字典词的一部分出现的次数;统计当前二元词出现在句首的次数;统计当前二元词出现在句末的次数。通过EMD将标记数据中的这13项特征对齐无标记数据中的这13项特征,取“统计当前二元词在文档中出现的次数”这项特征为例,计算特征对齐后标记数据与无标记数据的KL散度以及没有特征对齐标记数据和无标记数据的KL散度,经过对比可以发现(如图5),EMD特征对齐之后确实可以缓解标记数据和未标记数据的特征分布差异。
步骤4:对标记数据中的二元词打标,如果当前二元词出现在标记数据中的字典中,则标签标记为1,否则标记为0。通过xgboost分类器对标记数据和未标记数据构建分类模型,预测未标记数据中的二元词成词的概率。
步骤5:得到无标记数据集二元词的成词概率后,将概率进行降序排列,通过交叉验证的方法得到一个阈值,取前15%将序排列的二元词作为分类的结果,即需要从无标记数据中得到的二元新词;
步骤6:将分类器得到的二元新词和标记数据中的二元词融合成新的词典,具体参考图3;
步骤7:将标记数据和无标记数据处理成序列标注模型,通过步骤6得到的新的词典给序列标注模型赋予特征,如果当前字和下一个字组成的二元词出现在新的字典当中,就在当前字的特征列标1,否则标0,通过条件随机场构建分词模型。
步骤8:通过条件随机场构建分词模型,对无标记数据集进行序列标注,得到分词结果,与标准结果对比,通过F-score、Recall和Precision来评测分词结果的好坏。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (5)

1.一种特征对齐中文分词方法,其特征在于,包括以下步骤:
101、从标记数据和无标记数据中抽取二元词的特征;
102、通过EMD地球移动距离方法将标记数据和无标记数据进行特征对齐;
103、通过分类器xgboost训练经过特征对齐后的标记数据的特征,从而预测无标记数据中二元词成词的概率;
104、从分类器的结果中抽取一部分二元词与步骤101标记数据的二元词整合作为条件随机场的特征并进行训练;
105、通过条件随机场构建分词模型,对无标记数据进行序列标注分词;
所述步骤101从标记数据和无标记数据中抽取二元词的特征,具体为:
S1011、首先对抽取的二元词进行预处理,在标记数据和无标注数据中的二元词中,将频数为1或者带有标点符号的二元词去掉;
S1012、统计当前二元词在文档中出现的次数;
S1013、计算当前二元词的左字和右字的单字相乘概率,公式为:
P单字相乘=P(A)*P(B),其中P(A)表示二元词左字出现的概率,P(B)表示二元词右字出现的概率;
S1014、计算当前二元词的左字和右字之间的互信息,公式为:
Figure FDA0003555668380000011
MI(AB)表示当前二元词的互信息,P(AB)表示当前二元词出现的概率,P(A).表示二元词左字出现的概率,P(B)表示二元词右字出现的概率;
S1015、计算当前二元词和它前面的字之间的信息熵,公式为:
Figure FDA0003555668380000012
P(CAB|AB).表示在当前二元词AB的情况下C出现在AB前面的概率,C表示所有出现在当前二元词AB前面的字的集合;
S1016、计算当前二元词和它后面的字之间的信息熵,公式为:
Figure FDA0003555668380000013
P(ABC|AB)表示在当前二元词AB的情况下C出现在AB后面的概率,C表示所有出现在当前二元词AB后面的字的集合;
S1017、统计当前二元词前面出现标点符号的次数;
S1018、统计当前二元词后面出现标点符号的次数;
S1019、统计当前二元词前面出现数字的次数;
S10110、统计当前二元词后面出现数字的次数;
S10111、判断当前二元词左字是否为数字;
S10112、判断当前二元词右字是否为数字;
S10113、统计当前二元词前面的两个字作为字典词或者字典词的一部分出现的次数;
S10114、统计当前二元词后面的两个字作为字典词或者字典词的一部分出现的次数;
S10115、统计当前二元词前面的一个字和二元词左字组成的词作为字典词或者字典词的一部分出现的次数;
S10116、统计当前二元词右字和二元词后面的一个字组成的词作为字典词或者字典词的一部分出现的次数;
S10117、统计当前二元词前面的两个字和二元词左字组成的词作为字典词或者字典词的一部分出现的次数;
S10118、统计当前二元词右字和二元词后面的两个字组成的词作为字典词或者字典词的一部分出现的次数;
S10119、统计当前二元词出现在句首的次数;
S10120、统计当前二元词出现在句末的次数;
所述步骤102通过EMD地球移动距离方法将标记数据和无标记数据进行特征对齐,具体为:
S1021、假设来自训练集P的特征有m个,其中
Figure FDA0003555668380000021
pi代表了训练集值,
Figure FDA0003555668380000022
代表训练集值的权重,测试集
Figure FDA0003555668380000023
有n个特征,qn代表测试集的值,
Figure FDA0003555668380000024
表示测试集的权重,用D=[di,j]表示簇pi和qj之间的地表距离,目的是为了找到一个从pi到qj的流量F=[fi,j],使得总成本最小
Figure FDA0003555668380000031
S1022、将成本距离定义为欧氏距离的平方,这样的最小成本策略更加符合预期的效果;
所述步骤103通过分类器xgboost训练经过特征对齐后的标记数据的特征,从而预测无标记数据中二元词成词的概率,具体为:
S1031、特征对齐之后,标注集和无标注数据集中的二元词都用19维的向量表示,如果标注集的二元词在标注集的字典中出现,就将它的y标记为1,否则标记为0,利用xgboost分类器对标注集训练并对未标记数据的二元词进行成词概率的预测;
S1032、得到无标记数据集二元词的成词概率后,将概率进行降序排列,通过交叉验证的方法设定阈值从中提取出一定的二元词作为分类的结果,即分类得到的无标记二元新词。
2.根据权利要求1所述的一种特征对齐中文分词方法,其特征在于,
所述步骤102需要进行特征对齐的13项特征为:统计当前二元词在文档中出现的次数;统计当前二元词前面出现标点符号的次数;统计当前二元词后面出现标点符号的次数;统计当前二元词前面出现数字的次数;统计当前二元词后面出现数字的次数;统计当前二元词前面的两个字作为字典词或者字典词的一部分出现的次数;统计当前二元词后面的两个字作为字典词或者字典词的一部分出现的次数;统计当前二元词前面的一个字和二元词左字组成的词作为字典词或者字典词的一部分出现的次数;统计当前二元词右字和二元词后面的一个字组成的词作为字典词或者字典词的一部分出现的次数;统计当前二元词前面的两个字和二元词左字组成的词作为字典词或者字典词的一部分出现的次数;统计当前二元词右字和二元词后面的两个字组成的词作为字典词或者字典词的一部分出现的次数;统计当前二元词出现在句首的次数;统计当前二元词出现在句末的次数。
3.根据权利要求1所述的一种特征对齐中文分词方法,其特征在于,
所述步骤S1032取前15%将序排列的二元词作为分类的结果,即需要从无标记数据中得到的二元新词。
4.根据权利要求1所述的一种特征对齐中文分词方法,其特征在于,
所述步骤104从分类器的结果中抽取一部分二元词与标记数据的二元词整合作为条件随机场的特征并进行训练,具体为:
S1041、将分类器得到的二元新词和标记数据中的二元词融合成新的词典;
S1042、对处理成序列标注的标记数据和未标记数据进行打标,如果当前字和下一个字在二元词字典中,则当前字特征列就标记为1;否则标记为0。
5.根据权利要求1所述的一种特征对齐中文分词方法,其特征在于,所述步骤105通过条件随机场构建分词模型,对无标记数据进行序列标注分词,具体包括:
将标记数据和无标记数据处理成序列标注模型,通过得到的新的词典给序列标注模型赋予特征,如果当前字和下一个字组成的二元词出现在新的字典当中,就在当前字的特征列标1,否则标0,通过条件随机场构建分词模型。
CN201811185491.6A 2018-10-11 2018-10-11 一种特征对齐中文分词方法 Active CN109472020B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811185491.6A CN109472020B (zh) 2018-10-11 2018-10-11 一种特征对齐中文分词方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811185491.6A CN109472020B (zh) 2018-10-11 2018-10-11 一种特征对齐中文分词方法

Publications (2)

Publication Number Publication Date
CN109472020A CN109472020A (zh) 2019-03-15
CN109472020B true CN109472020B (zh) 2022-07-01

Family

ID=65663930

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811185491.6A Active CN109472020B (zh) 2018-10-11 2018-10-11 一种特征对齐中文分词方法

Country Status (1)

Country Link
CN (1) CN109472020B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110688837B (zh) * 2019-09-27 2023-10-31 北京百度网讯科技有限公司 数据处理的方法及装置
CN110705289B (zh) * 2019-09-29 2023-03-28 重庆邮电大学 一种基于神经网络和模糊推理的中文分词方法、系统及介质
CN111291559B (zh) * 2020-01-22 2023-04-11 中国民航信息网络股份有限公司 姓名文本处理方法及装置、存储介质及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101256557A (zh) * 2008-04-16 2008-09-03 腾讯科技(深圳)有限公司 自定义词管理装置、方法及分词系统
CN105446955A (zh) * 2015-11-27 2016-03-30 贺惠新 一种自适应的分词方法
CN106599029A (zh) * 2016-11-02 2017-04-26 焦点科技股份有限公司 一种中文短文本聚类方法
CN106776580A (zh) * 2017-01-20 2017-05-31 中山大学 混合的深度神经网络cnn和rnn的主题句识别方法
CN107832307A (zh) * 2017-11-28 2018-03-23 南京理工大学 基于无向图与单层神经网络的中文分词方法
CN108009153A (zh) * 2017-12-08 2018-05-08 北京明朝万达科技股份有限公司 一种基于搜索语句切词结果的搜索方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090119095A1 (en) * 2007-11-05 2009-05-07 Enhanced Medical Decisions. Inc. Machine Learning Systems and Methods for Improved Natural Language Processing
KR102450853B1 (ko) * 2015-11-30 2022-10-04 삼성전자주식회사 음성 인식 장치 및 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101256557A (zh) * 2008-04-16 2008-09-03 腾讯科技(深圳)有限公司 自定义词管理装置、方法及分词系统
CN105446955A (zh) * 2015-11-27 2016-03-30 贺惠新 一种自适应的分词方法
CN106599029A (zh) * 2016-11-02 2017-04-26 焦点科技股份有限公司 一种中文短文本聚类方法
CN106776580A (zh) * 2017-01-20 2017-05-31 中山大学 混合的深度神经网络cnn和rnn的主题句识别方法
CN107832307A (zh) * 2017-11-28 2018-03-23 南京理工大学 基于无向图与单层神经网络的中文分词方法
CN108009153A (zh) * 2017-12-08 2018-05-08 北京明朝万达科技股份有限公司 一种基于搜索语句切词结果的搜索方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Speaker Identification Model for Assamese Language using a;Mousmita Sarma;《The 2013 International Joint Conference on Neural Networks (IJCNN)》;20140109;1-7 *
Using Example-Based Machine Translation Method For;Linsen Yu;《2006 6th World Congress on Intelligent Control and Automation》;20060823;9809-9812 *
基于动态权重的AdaBoost 算法研究;李智星;《计算机应用研究》;20171130;第34卷(第11期);3233-3236 *
基于词的关联特征的中文分词方法;李康康;《通信技术》;20180831;第51卷(第10期);2343-2349 *

Also Published As

Publication number Publication date
CN109472020A (zh) 2019-03-15

Similar Documents

Publication Publication Date Title
CN114610515B (zh) 基于日志全语义的多特征日志异常检测方法及系统
CN104881458B (zh) 一种网页主题的标注方法和装置
CN109684642B (zh) 一种结合页面解析规则和nlp文本向量化的摘要提取方法
CN111783394A (zh) 事件抽取模型的训练方法、事件抽取方法和系统及设备
CN109635288A (zh) 一种基于深度神经网络的简历抽取方法
CN109472020B (zh) 一种特征对齐中文分词方法
CN107341143B (zh) 一种句子连贯性判断方法及装置和电子设备
CN108363691B (zh) 一种用于电力95598工单的领域术语识别系统及方法
CN112633431B (zh) 一种基于crnn和ctc的藏汉双语场景文字识别方法
CN112417854A (zh) 中文文档抽取式摘要方法
CN112966525B (zh) 一种基于预训练模型和卷积神经网络算法的法律领域事件抽取方法
CN114282527A (zh) 多语言文本检测与纠错方法、系统、电子设备及存储介质
CN110728117A (zh) 基于机器学习和自然语言处理的段落自动识别方法及系统
CN113011161A (zh) 一种基于深度学习与模式匹配的人案物关联关系抽取方法
CN107357895A (zh) 一种基于词袋模型的文本表示的处理方法
CN116205211A (zh) 基于大规模预训练生成模型的文档级简历解析方法
Al-Barhamtoshy et al. Arabic documents information retrieval for printed, handwritten, and calligraphy image
Farhoodi et al. N-gram based text classification for Persian newspaper corpus
CN110704638A (zh) 一种基于聚类算法的电力文本词典构造方法
CN103218420A (zh) 一种网页标题提取方法及装置
CN115130475A (zh) 一种可扩展的通用端到端命名实体识别方法
CN114842982A (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
CN111341404B (zh) 一种基于ernie模型的电子病历数据组解析方法及系统
CN110874398B (zh) 违禁词处理方法、装置、电子设备及存储介质
CN112926340A (zh) 一种用于知识点定位的语义匹配模型

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant