CN105446955A - 一种自适应的分词方法 - Google Patents

一种自适应的分词方法 Download PDF

Info

Publication number
CN105446955A
CN105446955A CN201510838594.8A CN201510838594A CN105446955A CN 105446955 A CN105446955 A CN 105446955A CN 201510838594 A CN201510838594 A CN 201510838594A CN 105446955 A CN105446955 A CN 105446955A
Authority
CN
China
Prior art keywords
character
word
sentence
tagmeme
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510838594.8A
Other languages
English (en)
Inventor
贺惠新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201510838594.8A priority Critical patent/CN105446955A/zh
Publication of CN105446955A publication Critical patent/CN105446955A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

一种分词系统的构建和应用的方法,属于自然语言处理的计算机技术应用领域。本发明基于自然语言的句子的内在特性,提出了结合词典和统计模型的分词方法,处理中把词典信息作为一个可由外部适配调整、可在统计模型模型内部产生影响及生成特征的资源,并全面考虑模型学习时原始训练语料对词典的影响,而算法设置了高效的特征的生成和组合方式,可充分降低计算的复杂度,并最终有效生成高准确率的分词模型;而应用时可方便的在词典中有针对的加入相关的词,有效提高算法的在不同场景下的适用性。本发明有效实现了计算机自动对自然语言的语句进行分词处理,并方便在不同领域下进行扩展应用,而分词后的结果可供给计算机做后续的分析。

Description

一种自适应的分词方法
技术领域
本发明涉及一种自适应的分词系统的构建和应用的方法,属于自然语言处理的计算机技术应用领域。
背景技术
目前信息的记录和传输的方法主要是通过人类自然语言。人类的语言与人群活动的环境密切相关,是相互协商,共同完成同一认知范畴中的任务的基础条件。这种自然语言是人参与社会活动,为更高效的信息交流和留存所产生的工具。人类的语言是以独立的词为认知结构,字是词的组成元素。语言用来交流时,采用序列的形式,将各能表示独立意义的词进行衔接,并以带有序关系的连续字串的方式记录下来,形成表达完整意义的句子和文章。
提取出各句子中词这种语义单元是理解信息的基本条件。但在对文本形式记录的句子进行理解时,由于各独立词之间没有明确的隔断信息,不同的字串结合在一起可以形成不同的信息表达,不正确的字串的切分成词的方式(即分词)会带来信息的错误认知。人脑有很强的纠错功能,完全由相关生活环境下的人来阅读理解句子时,这种错误相对可控。
在网络和信息时代,由人参与的活动/行为就在网络上形成了不同的记录信息,而这些信息又绝大多数是以自然语言的句子这种文本形式表达的,形成了文本信息的爆炸。对这种海量文本的分析已无法完全由人工来处理,这就要求计算机能有效对文本进行切分。
对文本进行正确分词的技术,当前主要有两种处理思路,即基于词典的模式匹配和基于统计的分类方法。基于词典的模型依赖于分词所采用的词典,当待切分的句子的正确词语在词典中都有记录时,分词能达到一定效果,但准确率仍相对有限;同时此方法本质上无法解决词语的歧义及新词没在词典中记录的问题。而基于统计的分词方法是以已分好词的语料为基础资源,训练分类器生成判别模型,从而对新的语料进行分词判断。在和训练语料相关的领域,这种方法的分词性能较好。但是此方法对训练语料依赖性强,应用时需要针对不同领域训练不同的模型,而标注语料的成本太高,以至于此方法不便于在不同领域进行扩充。也有技术将基于词典和统计的方法进行结合,但实际上把词典、训练语料当成了内部资源或者独立资源加入模型,应用时推广的效果有限。
本发明将基于词典和基于统计的方法进行结合,把词典信息作为一个可由外部适配调整、可在统计模型模型内部产生影响及生成特征的资源,并全面考虑模型学习时原始训练语料对词典的影响,而算法设置了高效的特征的生成和组合方式,可充分降低计算的复杂度,并最终有效生成高准确率的分词模型;而应用时可方便的在词典中有针对的加入相关的词,有效提高算法的在不同场景下的适用性。
发明内容
本发明的目的是为了解决计算机在自然语言处理中难以对句子做准确分词、并在新领域进行有效推广应用的难题,提供了一种结合词典匹配和统计模型的自动分词方法。
本发明设计的方法由训练模型和应用模型两个阶段组成,它包括以下步骤:
训练阶段
训练步骤一:获取模型训练阶段的依赖资源:获取已分好词(各句子中的字符有确定的切分成独立词的标准答案)的NS个句子的集合S={S(i)}为训练语料,各句子记为S(i),其中1≤i≤NS,要求NS≥50000;人工给定一个包含50个词以上的词典D,并人为指定词典扩充系数ε1,ε2
训练步骤二:从训练语料中提取语料高相关的词语,对词典进行扩充,提取的步骤细节为:
训练步骤二一:统计S中所有词的总数目,记为NW;进一步统计S中所含有的不同词的总数目,记为NWU;
训练步骤二二:统计S中所有不同的词各自出现的频次,并将词按对应词频由大到小的顺序进行排列,记排序后结果为WD={wd(1),wd(2),…,wd(NWU)},对应的频次记为NWD={nwd(1),nwd(2),…,nwd(NWU)};
训练步骤二三:在WD中找出依序排列的第st个序位(1<st<NWU),使得NWD中前st个序位对应的频次满足:
训练步骤二四:在WD中找出依序排列的第ed个序位(1<ed<NWU),使得NWD中前ed个序位对应的频次满足:
训练步骤二五:在WD中找出从第st个序位开始,到第ed个序位的为止的依序排列的所有的词的集合,记为WDA,即WDA={wd(st),wd(st+1),…,wd(ed)},1<st<ed<NWU
训练步骤二六:将WDA中所有词加入原来的词典中D,构成新的词典Dt,此字典中长度最长的词的长度记为NLDt
训练步骤三:对训练语料S的所有字符进行特征化表示,得到每个字符的抽取后的特征表示结果,记s(i,ji)为句子S(i)的第ji个字,其中1≤ji≤句子S(i)的总字符数,则s(i,ji)对应的特征化结果为:
其中各特征的提取细节步骤为:
训练步骤三一:对各个句子S(i)中的每个序位上的字符,建立各序位的字符对应的5个一元语法特征,分别表示为f1,f2,f3,f4,f5:
f3=此字符
训练步骤三二:对各个句子S(i)中的每个序位上的字符,建立各字符对应的4个二元语法特征,分别表示为f6,f7,f8
训练步骤三三:对各个句子S(i)中的每个序位上的字符,建立各字符对应的3个类型相关特征,分别表示为f10,f11,f12
训练步骤三四:对各个句子S(i)中的每个序位上的字符,建立各字符对应的3个字典型特征,分别表示为f13,f14,f15
f13=在词典Dt中,以此字符为第一个字符进行最大正向匹配所得词的长度值;在Dt中找不到符合条件的词时长度即为0;
f14=在词典Dt中,以此字符为最后一个字符进行逆向最大匹配所得词的长度值;在Dt中找不到符合条件的词时长度即为0;
f15=在本句中,用此字符的前NLDt个序位至此字前1个序位的字在词典Dt中采用正向最大匹配后,得到的经过此位置并且不以此字为结尾字符的最长词的长度值;若没有符合条件的情况,长度即为0;
训练步骤四:对训练语料S的各个字符的类别进行数字化表示,对应得到各句子S(i)的每个序位上的字符s(i,ji)对应的类别表示结果g(i,ji);
训练步骤五:基于条件随机场模型,将训练语料中所有字符的特征化结果F(s(i,ji))和对应的类别表示结果g(i,ji)作为输入数据,进行训练,得到训练后的分词模型M。
分词应用阶段:
对于一个要做分词处理的句子R={c1,c2,…,cy},其中c1,c2,…,cy为此句子中的依序排列的各个字符,y为句子R的字符总数,基于以下过程进行分词:
应用步骤一:获得与待分词句子相关的词典Dr(Dr中的词数≥0),并将Dr中所有词加入Dt中,行成新的词典Da,此字典中长度最长的词的长度记为NLDa
应用步骤二:先对句子中的每个字符cm提取特征F(cm),其中1≤m≤y,
,其中各特征的提取细节步骤为:
应用步骤二一:对句子R中的每个序位上的字符,建立各序位的字符对应的5个一元语法特征,分别表示为f1,f2,f3,f4,f5:
f3=此字符
应用步骤二二:对句子R中的每个序位上的字符,建立各字符对应的4个二元语法特征,分别表示为f6,f7,f8
应用步骤二三:对句子R中的每个序位上的字符,建立各字符对应的3个类型相关特征,分别表示为f10,f11,f12
应用步骤二四:对句子R中的每个序位上的字符,建立各字符对应的3个字典型特征,分别表示为f13,f14,f15
f13=在词典Da中,以此字符为第一个字符进行最大正向匹配所得词的长度值;在Da中找不到符合条件的词时长度即为0;
f14=在词典Da中,以此字符为最后一个字符进行逆向最大匹配所得词的长度值;在Da中找不到符合条件的词时长度即为0;
f15=在本句中,用此字符的前NLDa个序位至此字前1个序位的字在词典Da中采用正向最大匹配后,得到的经过此位置并且不以此字为结尾字符的最长词的长度值;若没有符合条件的情况,长度即为0;
应用步骤三:将句子R中所有字符的特征化结果F(cm)输入已训练好的模型M中,并由模型M进行分类评判,输出各字符对应的分类结果g(cm);
应用步骤四:输出所有g(cm)值为1或4的字符cm的序位,即句子R可在这些位置做句子的组成词切分,此即是此句子的分词结果。
本发明的优点是:本发明基于自然语言的句子的内在特性,提出了结合词典和统计模型的分词方法,处理中把词典信息作为一个可由外部适配调整、可在统计模型模型内部产生影响及生成特征的资源,并全面考虑模型学习时原始训练语料对词典的影响,而算法设置了高效的特征的生成和组合方式,可充分降低计算的复杂度,并最终有效生成高准确率的分词模型;而应用时可方便的在词典中有针对的加入相关的词,有效提高算法的在不同场景下的适用性。
本发明有效实现了计算机自动对自然语言的语句进行分词处理,并方便在不同领域下进行扩展应用,而语句分词后的结果可提供给计算机做后续的各种分析。
附图说明
图1为本发明的模型训练的方法的流程图,图2为应用的方法的流程图。
具体实施方式
下面结合附图图1和图2说明本实施方式。
本发明设计的方法由训练模型和应用模型两个阶段组成,它包括以下具体应用方式一的训练阶段和具体应用方式二的应用阶段。
具体应用方式一:训练阶段
训练步骤一:获取模型训练阶段的依赖资源:获取已分好词(各句子中的字符有确定的切分成独立词的标准答案)的NS个句子的集合S={S(i)}为训练语料,各句子记为S(i),其中1≤i≤NS,要求NS≥50000;人工给定一个包含50个词以上的词典D,并人为指定词典扩充系数ε1,ε2
训练步骤二:从训练语料中提取语料高相关的词语,对词典进行扩充,提取的步骤细节为:
训练步骤二一:统计S中所有词的总数目,记为NW;进一步统计S中所含有的不同词的总数目,记为NWU;
训练步骤二二:统计S中所有不同的词各自出现的频次,并将词按对应词频由大到小的顺序进行排列,记排序后结果为WD={wd(1),wd(2),…,wd(NWU)},对应的频次记为NWD={nwd(1),nwd(2),…,nwd(NWU)};
训练步骤二三:在WD中找出依序排列的第st个序位(1<st<NWU),使得NWD中前st个序位对应的频次满足:
训练步骤二四:在WD中找出依序排列的第ed个序位(1<ed<NWU),使得NWD中前ed个序位对应的频次满足:
训练步骤二五:在WD中找出从第st个序位开始,到第ed个序位的为止的依序排列的所有的词的集合,记为WDA,即WDA={wd(st),wd(st+1),…,wd(ed)},1<st<ed<NWU
训练步骤二六:将WDA中所有词加入原来的词典中D,构成新的词典Dt,此字典中长度最长的词的长度记为NLDt
训练步骤三:对训练语料S的所有字符进行特征化表示,得到每个字符的抽取后的特征表示结果,记s(i,ji)为句子S(i)的第ji个字,其中1≤ji≤句子S(i)的总字符数,则s(i,ji)对应的特征化结果为:
其中各特征的提取细节步骤为:
训练步骤三一:对各个句子S(i)中的每个序位上的字符,建立各序位的字符对应的5个一元语法特征,分别表示为f1,f2,f3,f4,f5:
f3=此字符
训练步骤三二:对各个句子S(i)中的每个序位上的字符,建立各字符对应的4个二元语法特征,分别表示为f6,f7,f8
训练步骤三三:对各个句子S(i)中的每个序位上的字符,建立各字符对应的3个类型相关特征,分别表示为f10,f11,f12
训练步骤三四:对各个句子S(i)中的每个序位上的字符,建立各字符对应的3个字典型特征,分别表示为f13,f14,f15
f13=在词典Dt中,以此字符为第一个字符进行最大正向匹配所得词的长度值;在Dt中找不到符合条件的词时长度即为0;
f14=在词典Dt中,以此字符为最后一个字符进行逆向最大匹配所得词的长度值;在Dt中找不到符合条件的词时长度即为0;
f15=在本句中,用此字符的前NLDt个序位至此字前1个序位的字在词典Dt中采用正向最大匹配后,得到的经过此位置并且不以此字为结尾字符的最长词的长度值;若没有符合条件的情况,长度即为0;
训练步骤四:对训练语料S的各个字符的类别进行数字化表示,对应得到各句子S(i)的每个序位上的字符s(i,ji)对应的类别表示结果g(i,ji);
训练步骤五:基于条件随机场模型,将训练语料中所有字符的特征化结果F(s(i,ji))和对应的类别表示结果g(i,ji)作为输入数据,进行训练,得到训练后的分词模型M。
具体应用方式二:分词应用阶段
对于一个要做分词处理的句子R={c1,c2,…,cy},其中c1,c2,…,cy为此句子中的依序排列的各个字符,y为句子R的字符总数,基于以下过程进行分词:
应用步骤一:获得与待分词句子相关的词典Dr(Dr中的词数≥0),并将Dr中所有词加入Dt中,行成新的词典Da,此字典中长度最长的词的长度记为NLDa
应用步骤二:先对句子中的每个字符cm提取特征F(cm),其中1≤m≤y,
,其中各特征的提取细节步骤为:
应用步骤二一:对句子R中的每个序位上的字符,建立各序位的字符对应的5个一元语法特征,分别表示为f1,f2,f3,f4,f5:
f3=此字符
应用步骤二二:对句子R中的每个序位上的字符,建立各字符对应的4个二元语法特征,分别表示为f6,f7,f8
应用步骤二三:对句子R中的每个序位上的字符,建立各字符对应的3个类型相关特征,分别表示为f10,f11,f12
应用步骤二四:对句子R中的每个序位上的字符,建立各字符对应的3个字典型特征,分别表示为f13,f14,f15
f13=在词典Da中,以此字符为第一个字符进行最大正向匹配所得词的长度值;在Da中找不到符合条件的词时长度即为0;
f14=在词典Da中,以此字符为最后一个字符进行逆向最大匹配所得词的长度值;在Da中找不到符合条件的词时长度即为0;
f15=在本句中,用此字符的前NLDa个序位至此字前1个序位的字在词典Da中采用正向最大匹配后,得到的经过此位置并且不以此字为结尾字符的最长词的长度值;若没有符合条件的情况,长度即为0;
应用步骤三:将句子R中所有字符的特征化结果F(cm)输入已训练好的模型M中,并由模型M进行分类评判,输出各字符对应的分类结果g(cm);
应用步骤四:输出所有g(cm)值为1或4的字符cm的序位,即句子R可在这些位置做句子的组成词切分,此即是此句子的分词结果。

Claims (4)

1.一种自适应的分词方法,其特征是:它包括以下步骤:
方法由训练模型和应用模型两个阶段组成,其中训练阶段包括:
训练步骤一:获取模型训练阶段的依赖资源:获取已分好词(各句子中的字符有确定的切分成独立词的标准答案)的NS个句子的集合S={S(i)}为训练语料,各句子记为S(i),其中1≤i≤NS,要求NS≥50000;人工给定一个包含50个词以上的词典D,并人为指定词典扩充系数ε1,ε2
训练步骤二:从训练语料中提取语料高相关的词语,对词典进行扩充;
训练步骤三:对训练语料S的所有字符进行特征化表示,得到每个字符的抽取后的特征表示结果,记s(i,ji)为句子S(i)的第ji个字,其中1≤ji≤句子S(i)的总字符数,则s(i,ji)对应的特征化结果为:
训练步骤四:对训练语料S的各个字符的类别进行数字化表示,对应得到各句子S(i)的每个序位上的字符s(i,ji)对应的类别表示结果g(i,ji)
训练步骤五:基于条件随机场模型,将训练语料中所有字符的特征化结果F(s(i,ji))和对应的类别表示结果g(i,ji)作为输入数据,进行训练,得到训练后的分词模型M。
2.根据权利要求1所述的方法,其特征在于所述训练阶段的步骤二具体包括:
训练步骤二一:统计S中所有词的总数目,记为NW;进一步统计S中所含有的不同词的总数目,记为NWU;
训练步骤二二:统计S中所有不同的词各自出现的频次,并将词按对应词频由大到小的顺序进行排列,记排序后结果为WD={wd(1),wd(2),…,wd(NWU)},对应的频次记为NWD={nwd(1),nwd(2),…,nwd(NWU)};
训练步骤二三:在WD中找出依序排列的第st个序位(1<st<NWU),使得NWD中前st个序位对应的频次满足:
训练步骤二四:在WD中找出依序排列的第ed个序位(1<ed<NWU),使得NWD中前ed个序位对应的频次满足:
训练步骤二五:在WD中找出从第st个序位开始,到第ed个序位的为止的依序排列的所有的词的集合,记为WDA,即WDA={wd(st),wd(st+1),…,wd(ed)},1<st<ed<NWU
训练步骤二六:将WDA中所有词加入原来的词典中D,构成新的词典Dt,此字典中长度最长的词的长度记为NLDt。
3.根据权利要求1或权利要求2所述的方法,其特征在于所述训练阶段的步骤三具体包括:
训练步骤三一:对各个句子S(i)中的每个序位上的字符,建立各序位的字符对应的5个一元语法特征,分别表示为f1,f2,f3,f4,f5
f3=此字符
训练步骤三二:对各个句子S(i)中的每个序位上的字符,建立各字符对应的4个二元语法特征,分别表示为f6,f7,f8
训练步骤三三:对各个句子S(i)中的每个序位上的字符,建立各字符对应的3个类型相关特征,分别表示为f10,f11,f12
训练步骤三四:对各个句子S(i)中的每个序位上的字符,建立各字符对应的3个字典型特征,分别表示为f13,f14,f15
f13=在词典Dt中,以此字符为第一个字符进行最大正向匹配所得词的长度值;在Dt中找不到符合条件的词时长度即为0;
f14=在词典Dt中,以此字符为最后一个字符进行逆向最大匹配所得词的长度值;在Dt中找不到符合条件的词时长度即为0;
f15=在本句中,用此字符的前NLDt个序位至此字前1个序位的字在词典Dt中采用正向最大匹配后,得到的经过此位置并且不以此字为结尾字符的最长词的长度值;若没有符合条件的情况,长度即为0。
4.根据权利要求1所述的方法,其特征在于所述应用阶段具体包括:
对于一个要做分词处理的句子R={c1,c2,…,cy},其中c1,c2,…,cy为此句子中的依序排列的各个字符,y为句子R的字符总数,基于以下过程进行分词:
应用步骤一:获得与待分词句子相关的词典Dr(Dr中的词数≥0),并将Dr中所有词加入Dt中,行成新的词典Da,此字典中长度最长的词的长度记为NLDa
应用步骤二:先对句子中的每个字符cm提取特征F(cm),其中1≤m≤y,
,其中各特征的提取细节步骤为:
应用步骤二一:对句子R中的每个序位上的字符,建立各序位的字符对应的5个一元语法特征,分别表示为f1,f2,f3,f4,f5
f3=此字符
应用步骤二二:对句子R中的每个序位上的字符,建立各字符对应的4个二元语法特征,分别表示为f6,f7,f8
应用步骤二三:对句子R中的每个序位上的字符,建立各字符对应的3个类型相关特征,分别表示为f10,f11,f12
应用步骤二四:对句子R中的每个序位上的字符,建立各字符对应的3个字典型特征,分别表示为f13,f14,f15
f13=在词典Da中,以此字符为第一个字符进行最大正向匹配所得词的长度值;在Da中找不到符合条件的词时长度即为0;
f14=在词典Da中,以此字符为最后一个字符进行逆向最大匹配所得词的长度值;在Da中找不到符合条件的词时长度即为0;
f15=在本句中,用此字符的前NLDa个序位至此字前1个序位的字在词典Da中采用正向最大匹配后,得到的经过此位置并且不以此字为结尾字符的最长词的长度值;若没有符合条件的情况,长度即为0;
应用步骤三:将句子R中所有字符的特征化结果F(cm)输入已训练好的模型M中,并由模型M进行分类评判,输出各字符对应的分类结果g(cm);
应用步骤四:输出所有g(cm)值为1或4的字符cm的序位,即句子R可在这些位置做句子的组成词切分,此即是此句子的分词结果。
CN201510838594.8A 2015-11-27 2015-11-27 一种自适应的分词方法 Pending CN105446955A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510838594.8A CN105446955A (zh) 2015-11-27 2015-11-27 一种自适应的分词方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510838594.8A CN105446955A (zh) 2015-11-27 2015-11-27 一种自适应的分词方法

Publications (1)

Publication Number Publication Date
CN105446955A true CN105446955A (zh) 2016-03-30

Family

ID=55557170

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510838594.8A Pending CN105446955A (zh) 2015-11-27 2015-11-27 一种自适应的分词方法

Country Status (1)

Country Link
CN (1) CN105446955A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291684A (zh) * 2016-04-12 2017-10-24 华为技术有限公司 语言文本的分词方法和系统
CN107291837A (zh) * 2017-05-31 2017-10-24 北京大学 一种基于领域适应性的网络文本的分词方法
CN108268438A (zh) * 2016-12-30 2018-07-10 腾讯科技(深圳)有限公司 一种页面内容提取方法、装置以及客户端
CN108304367A (zh) * 2017-04-07 2018-07-20 腾讯科技(深圳)有限公司 分词方法及装置
CN108536869A (zh) * 2018-04-25 2018-09-14 努比亚技术有限公司 一种搜索分词的方法、装置及计算机可读存储介质
CN109472020A (zh) * 2018-10-11 2019-03-15 重庆邮电大学 一种特征对齐中文分词方法
CN109977399A (zh) * 2019-03-05 2019-07-05 国网青海省电力公司 一种基于nlp技术的数据分析方法及装置
CN110321414A (zh) * 2019-04-19 2019-10-11 四川政资汇智能科技有限公司 一种基于深度学习的人工智能咨询服务方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6411932B1 (en) * 1998-06-12 2002-06-25 Texas Instruments Incorporated Rule-based learning of word pronunciations from training corpora
CN103324612A (zh) * 2012-03-22 2013-09-25 北京百度网讯科技有限公司 一种分词的方法及装置
CN103955451A (zh) * 2014-05-15 2014-07-30 北京优捷信达信息科技有限公司 一种判别短文本情感倾向性的方法
CN104268160A (zh) * 2014-09-05 2015-01-07 北京理工大学 一种基于领域词典和语义角色的评价对象抽取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6411932B1 (en) * 1998-06-12 2002-06-25 Texas Instruments Incorporated Rule-based learning of word pronunciations from training corpora
CN103324612A (zh) * 2012-03-22 2013-09-25 北京百度网讯科技有限公司 一种分词的方法及装置
CN103955451A (zh) * 2014-05-15 2014-07-30 北京优捷信达信息科技有限公司 一种判别短文本情感倾向性的方法
CN104268160A (zh) * 2014-09-05 2015-01-07 北京理工大学 一种基于领域词典和语义角色的评价对象抽取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张梅山 等: "统计与词典相结合的领域自适应中文分词", 《中文信息学报》 *
邓知龙: "基于感知器算法的高效中文分词与词性标注系统设计与实现", 《中国优秀硕士学位论文全文数据库》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291684A (zh) * 2016-04-12 2017-10-24 华为技术有限公司 语言文本的分词方法和系统
CN108268438A (zh) * 2016-12-30 2018-07-10 腾讯科技(深圳)有限公司 一种页面内容提取方法、装置以及客户端
CN108268438B (zh) * 2016-12-30 2021-10-22 腾讯科技(深圳)有限公司 一种页面内容提取方法、装置以及客户端
CN108304367A (zh) * 2017-04-07 2018-07-20 腾讯科技(深圳)有限公司 分词方法及装置
CN108304367B (zh) * 2017-04-07 2021-11-26 腾讯科技(深圳)有限公司 分词方法及装置
CN107291837A (zh) * 2017-05-31 2017-10-24 北京大学 一种基于领域适应性的网络文本的分词方法
CN107291837B (zh) * 2017-05-31 2020-04-03 北京大学 一种基于领域适应性的网络文本的分词方法
CN108536869A (zh) * 2018-04-25 2018-09-14 努比亚技术有限公司 一种搜索分词的方法、装置及计算机可读存储介质
CN109472020A (zh) * 2018-10-11 2019-03-15 重庆邮电大学 一种特征对齐中文分词方法
CN109472020B (zh) * 2018-10-11 2022-07-01 重庆邮电大学 一种特征对齐中文分词方法
CN109977399A (zh) * 2019-03-05 2019-07-05 国网青海省电力公司 一种基于nlp技术的数据分析方法及装置
CN110321414A (zh) * 2019-04-19 2019-10-11 四川政资汇智能科技有限公司 一种基于深度学习的人工智能咨询服务方法及系统

Similar Documents

Publication Publication Date Title
CN105446955A (zh) 一种自适应的分词方法
CN108984530A (zh) 一种网络敏感内容的检测方法及检测系统
CN107590133A (zh) 基于语义的招聘职位与求职简历匹配的方法及系统
CN106503055A (zh) 一种从结构化文本到图像描述的生成方法
CN103577989B (zh) 一种基于产品识别的信息分类方法及信息分类系统
CN109977234A (zh) 一种基于主题关键词过滤的知识图谱补全方法
CN108182976A (zh) 一种基于神经网络的临床医学信息提取方法
CN111160452A (zh) 一种基于预训练语言模型的多模态网络谣言检测方法
CN109492101A (zh) 基于标签信息与文本特征的文本分类方法、系统及介质
CN108647191B (zh) 一种基于有监督情感文本和词向量的情感词典构建方法
CN103886034A (zh) 一种建立索引及匹配用户的查询输入信息的方法和设备
CN101599071A (zh) 对话文本主题的自动提取方法
CN103631874B (zh) 社交平台的ugc标签类别确定方法和装置
CN106445917B (zh) 一种基于模式的自举中文实体抽取方法
CN108415972A (zh) 文本情感处理方法
CN107357785A (zh) 主题特征词抽取方法及系统、情感极性判断方法及系统
CN109213856A (zh) 一种语义识别方法及系统
CN106951472A (zh) 一种网络文本的多重情感分类方法
CN111914555B (zh) 基于Transformer结构的自动化关系抽取系统
CN107977345A (zh) 一种通用文本信息抽取方法以及系统
CN108280164A (zh) 一种基于类别相关单词的短文本过滤与分类方法
CN107463703A (zh) 基于信息增益的英文社交媒体账号分类方法
CN104008187A (zh) 一种基于最小编辑距离的半结构化文本匹配方法
CN106980620A (zh) 一种对中文字串进行匹配的方法及装置
CN105159917A (zh) 一种电子病历的非结构化信息转化为结构化的泛化方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160330

WD01 Invention patent application deemed withdrawn after publication