CN101246472A - 一种汉语文本的大、小粒度切分实现方法和装置 - Google Patents

一种汉语文本的大、小粒度切分实现方法和装置 Download PDF

Info

Publication number
CN101246472A
CN101246472A CN 200810089822 CN200810089822A CN101246472A CN 101246472 A CN101246472 A CN 101246472A CN 200810089822 CN200810089822 CN 200810089822 CN 200810089822 A CN200810089822 A CN 200810089822A CN 101246472 A CN101246472 A CN 101246472A
Authority
CN
China
Prior art keywords
word
particle size
mode
named entity
segmentation
Prior art date
Application number
CN 200810089822
Other languages
English (en)
Other versions
CN101246472B (zh
Inventor
鉴 朱
闪 李
Original Assignee
腾讯科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 腾讯科技(深圳)有限公司 filed Critical 腾讯科技(深圳)有限公司
Priority to CN 200810089822 priority Critical patent/CN101246472B/zh
Publication of CN101246472A publication Critical patent/CN101246472A/zh
Application granted granted Critical
Publication of CN101246472B publication Critical patent/CN101246472B/zh

Links

Abstract

本发明公开了一种汉语文本的大、小粒度切分实现方法,包括如下步骤:设置大粒度切分方式和小粒度切分方式;根据输入的粒度需求,采用相应的粒度切分方式对汉语文本进行切分处理,并输出切分后的汉语文本。本发明还公开了一种汉语文本的大、小粒度切分装置。本发明方案可以根据实际需要采用相应的粒度对文本进行切分,能够满足不同后续汉语文本处理需求。

Description

一种汉语文本的大、小粒度切分实现方法和装置技术领域本发明涉及文本信息自动处理技术领域,特别涉及一种汉语文本的大、 小粒度切分实现方法和装置。背景技术由于汉语文本是基于单字的,即一段汉语文本是由单字组成的,表达该 文本意义的词与词之间不像英语那样有显式的分隔标记,因此为了对汉语文 本进行语义分析处理,首要的任务是对该文本中的每个词增加一个词界标 记,使得所形成的词串能反映句子的本意。现有的中文分词方法 一般都能符合中文分词的基本要求,但中文分词是 对文本最基础的分析处理,基于该处理之上,还有很多其他后续的文本处理 操作,如汉语语音合成、汉语-外语语义自动翻译、汉语信息检索等,首先 由分词单元对汉语文本进行分词处理,然后将分词结果提交给语音合成单 元、机器翻译单元或检索单元进行后续处理,因此中文分词阶段应能根据后 续的处理需求,保留相应的文本信息,以提高后续处理的效率。现有的基于转换的错误驱动学习方法(TBL)是一种符号式的机器学习 方法。由于该算法是一种机器学习算法,所以将其运用于分词粒度调整时, 需要三个重要的组成部分:未切分的训练语料、标准语料和规则模版。其中:未切分的训练语料,用于分词系统切分标准语料,按特定的粒度标准切分好的语料规则模版,表示一个规则集,它限定了学习中可能会用到的转换规则 使用TBL学习粒度调整规则的流程如下所示:1、首先,利用分词系统对未切分的训练语料进行切分,形成最初的训练语料;2、 根据规则模板,构造所有可能的转换规则,并将其作用于训练语料,产生新的标注语料。通过比较标准语料和标注语料,选择能最大减少分词错误数的那条转换规则;3、 一旦选取某条转换规则,就把它作用于当前训练语料中,进行重新 标注,形成新的训练语料;4、 重复步骤2, 3,直到最终的分词粒度一致;5、 输出最终的转换规则序列。实际应用时,需将上面得到的转换规则序列用于分词结果的后处理。即 将转换规则序列作用于分词系统分词的结果,通过规则调整来得到所需的分 词粒度。该方法只能实现用单一粒度进行分词。但是,不同领域的文本处理操作 需要不同粒度的分词结果。根据统计结果显示,在汉语语音合成、汉语-外 语语义自动翻译等领域,需要分词单元提供一个粒度较大的分词结果,如正 则表达式词"2007年10月17日,,经过汉语分词处理后应保持原样,这样 以提高语音合成或机器翻译的准确率。但对于汉语信息检索等领域来说,则 需要提供一个粒度较小的结果,如同样是上述正则表达式词汇,则需要分成 "2007/年/10/月/17/日,,,这样做的目的是提高信息检索的召回率。因为常 常用户在进行检索的时候,自己的需求不是很明确,或者说自己输入的检索 词并不能完全表达自己的意愿,因此通过汉语分词对检索词分析,提供一个 较小的粒度,然后提供给用户更多的信息,以备选择。综上所述,现有技术的缺点在于,无法针对不同后续汉语文本处理需求 提供相应粒度的汉语分词结果。发明内容有鉴于此,本发明实施例提出一种大、小粒度切分实现的方法,能够满 足不同后续汉语文本处理需求。该方法包括如下步骤:设置大粒度切分方式和小粒度切分方式;根据输入的粒度需求,采用相应的粒度切分方式对汉语文本进行切分处 理,并输出切分后的汉语文本。本发明实施例还提出一种汉语文本的大、小粒度切分装置,包括:模式词识别与粒度区分模块,用于识别汉语文本中的模式词,并对所识别 的模式词进行粒度切分,并输出所述模式词作为模式词的大粒度切分结果,输 出粒度切分后的模式词作为模式词的小粒度切分结果;命名实体词识别模块,用于识别汉语文本中的命名实体词,输出识别出的 命名实体词以及所述命名实体词的粒度信息;输出模块,用于根据所述模式词识别与粒度区分模块得到的模式词的大 粒度切分结果或小粒度切分结果,以及所述命名实体词识别模块所得到的命 名实体词和所述命名实体词的粒度信息,并根据实际输入的粒度需求,输出根据所述粒度需求所对应的粒度划分的汉语字符串。从以上技术方案可以看 出,预先设置大、小两种粒度划分标准,则可以根据实际需要采用相应的粒 度对文本进行切分,能够满足不同后续汉语文本处理需求。附图说明图1为本发明实施例的汉语文本的大、小粒度切分基本实现流程图; 图2为本发明实施例根据模式词粒度标准对字符串进行粒度划分的流 程图;图3为本发明实施例对中文地名类命名实体词的识别及粒度划分过程 示意图;图4为本发明实施例对中文组织结构名类命名实体词的识别及粒度划 分过程示意图;图5为本发明实施例的汉语文本的大、小粒度切分装置框图。具体实施方式本发明实施例方案的基本流程如图l所示,包括如下几个基本步骤: 步骤101:制定对模式词、以及对于人名、地名和组织机构名这类命名 实体词的识别规则,及其相应的大粒度区分信息和小粒度区分信息。 其中,对模式词的识别规则包括:在识别规则中加入粒度信息,即粒度区分点。然后用确定性的有限状态 自动机(Deterministic Finite Automaton, DFA )表示该识另'J规则,这样在分 词过程中,就可以使用该有限状态自动机来识别符合规则的模式词。这样最 终输出的时候,可以根据用户的大、小粒度需求,实用上述DFA对模式词 进行划分,给出相应粒度的模式词。制定模式词的粒度标准,根据所述模式词粒度标准,在识别这类模式词 的正则表达式中加入大粒度信息和小粒度信息。。本发明实施例共制定了以下的模式词的粒度标准:(1) 日期词如"2007年10月18日,,等,这类词汇在大粒度下的切分方式为: "2007年10月18日",小粒度下的切分方式为:"2007/年/10/月/18/ 日"。即数字词和日期单位需切开。(2) 时间词如"5分43秒"等,这类词汇在大粒度下的切分方式为:"5分43秒", 小粒度下的切分方式为:"5/分/43/秒"。即数字词和时间单位需切开。(3) 电子邮件(Email)地址如"iianzhu(^tencentxom"等,这类词汇在大粒度下的切分方式为: "i ianzhu@tencent.com", 小斗立度下的切分方式为: "Uanzhu繊encen仏/讓"。即'@,前面的词需切开,同时'@,后面的 字符串需要以'.,符号为分隔切开。(4) 英文串将连续的英文字符识别一个词,比如"search",作为一个整体切出, 没有大、小粒度区别;"abc-dcb"这类与其它字符混杂的英文串,大 粒度切分方式为"abc-dcb",小粒度切分方式为'、1^/-/(^1)",及英文 字符与其它字符分开;"abcl23"这类英文串,大粒度切分方式为 "abcl23",小粒度切分方式为"abc/123",即英文和数字需切开。(5) 电话号码如"86-10-62671188",这类词汇在大粒度下的切分方式为: "86-10-62671188",小粒度下的切分方式为:"86/-/10/-/62671188", 即电话号码中用'-,字符隔开的数字串需要切开。(6) 金钱如"500RMB",这类词汇在大粒度下的切分方式为:"500/RMB", 小粒度下的切分方式为:"500/RMB",即金钱中的数字和金钱单位 需要切开。(7) 网址如"而w.qq.画",这类词汇在大4立度下的切分方式为: "www.qq.com",小粒度下的切分方式为:"www〃。q/./画",即英 文串中间有其他符号时,英文串需要和这些符号切开。(8) 分数如"四分之三"、"1/2",这类词汇在大粒度下的切分方式为:"四分 之三"、"1/2",小粒度下的切分方式为:"四分/之/三"、"l〃/2",即 分子和分母需要切开。(9) 百分数如"98%",这类词汇在大粒度下的切分方式为:"98%",小粒度下 的切分方式为"98/%",即数字和百分号需切开。(10) 数字串如"500",这类词汇的大粒度和小粒度的切分方式均为"500",同时 带小数点的数,如"3.1415",其大粒度和小粒度的切分方式也是一样的。(11) 年龄如"25岁",这类词汇在大粒度下的切分方式为:"25岁",小粒度 下的切分方式为:"25/岁",即数字和年龄单位需要切开。(12) 重量如"60公斤",这类词汇在大粒度下的切分方式为:"60公斤",小 粒度下的切分方式为:"60/公斤",即数字和重量单位需要切开。(13) 长度如"60mm",这类词汇在大粒度下的切分方式为:"60mm",小粒度 下的切分方式为:"60/mm",即数字和长度单位需要切开。(14) 温度如"零下20摄氏度"、"20。C",这类词汇在大粒度下的切分方式为: "零下20摄氏度"、"20。C",小粒度下的切分方式为:"零下/20/摄 氏/度,,、"20/。C",即数字和温度单位需要切开。(15) 面积如"50平方公里",这类词汇在大粒度下的切分方式为:"50平方公 里",小粒度下的切分方式为:"50/平方/公里",即数字、平方和长 度单位之间需要切开。(16) 容积如"500立方米",这类词汇在大粒度下的切分方式为:"500立方米", 小粒度下的切分方式为:"500/立方/米",即数字、立方和长度单位 之间需要切开。(17) 速度如"20米/S",这类词汇在大粒度下的切分方式为:"20米/S",小粒 度下的切分方式为:"20/米/Z/S",即数字、长度和时间单位之间需 要切开。(18) 功率如"300W",这类词汇在大粒度下的切分方式为:"300W",小粒度 下的切分方式为:"300/W",即数字和度量单位之间需要切开。(19) 序数词如"第19届",这类词汇在大粒度下的切分方式为:"第19届",小 粒度下的切分方式为:"第/19/届",即序数词"第"、数字和单位之 间需要切开。(20) 角度如"38度",这类词汇在大粒度下的切分方式为:"38度",小粒度 下的切分方式为:"38/度",即数字和角度单位之间需要切开。 根据上述模式词粒度标准,在书写识别模式词的正则表达式中加入粒度 信息。然后分别编译生成两个DFA模块: 一个DFA模块中不包含粒度信息, 该DFA模块用于模式词识别,称为模式词识别单元; 一个DFA模块中包含 粒度信息,该DFA模块用于小粒度区分,称为小粒度区分单元。 对命名实体词的识别规则包括:从已进行标注的语料中抽取出命名实体词,对命名实体词进行分类,然 后给每一类命名实体词制定一个识别类模板,同时用识别类模板对相应的命 名实体词进行标注,得到包含粒度信息的命名实体词识别模型和关键词库。 具体地说,使用隐马可夫模型(hidden Markov models, HMM )训练工具训 练命名实体词语料以得到HMM模型,同时从该训练语料中抽取得到一个关 键词库。这样在分词的过程中,就可以使用关键词库和HMM模型来识别人 名、地名和組织机构名这类命名实体词,同时在识别的过程中记录命名实体 词的粒度信息。这样在最终输出的时候,就可以根据用户的大、小粒度需求, 采用所记录的命名实体词的粒度信息对文本进行中命名实体词进行划分,给 出相应粒度的命名实体词。步骤102:根据用户的大、小粒度需求,用所得的有限状态机、HMM 模型和/或关键词库,对汉语文本进行区分,得到相应粒度的区分结果。本发明实施例的根据模式词粒度标准对字符串进行粒度划分的流程如图2所示,待划分的字符串首先经过步骤201的模式词识别过程,得到模式 词,所述模式词为大粒度的区分结果;再经过步骤202的小粒度区分过程, 得到小粒度的区分结果;最后根据实际输入的粒度需求进行步骤203的输出 处理,得到相应粒度的模式词区分结果。用于执行步骤201的模式词识别单元的生成过程包括:将包含粒度信息 的正则表达式进行粒度点移除和DFA转换,所述模式词识別单元不包含粒 度区分信息,用于识别模式词。而用于执行步骤202的小粒度区分单元的生 成过程包括:将包含粒度信息的正则表达式进行DFA转换过程,小粒度区 分单元包括粒度区分信息,用于将模式词进行小粒度的区分。以下是一个用于识别英文数字串的正则表达式,该表达式中包含粒度信 息,粒度信息用(0x06)字符表示。%{number}:([0-9]| 0|1|2|3|4|5|6|7|8|9)%{english}:([a-z]l[A-Z]| alblcldlelflglhlilJlklllmlnlolPlql叫sltlul"叫xlyl z|A|B1C|D1E|F|G|H|I | J | K| L网N 10 | P | q | R! S | T !U | V!W| X1Y | Z) english:({number} {number} * □ {english} {english} *)|({english} {english} * □ {number} {number} {number} {number} *C]{english}{english}*[] {number} {number} *)l{english}{english}*[D {number} {number} * □ {english} {english} *|({english} {english} {english} *)使用上面的正则表达式,就可以生成一个包含粒度信息的DFA,同时 将该正则表达式中的粒度信息移除后,通过DFA转换生成一个不包含粒度 信息的DFA。以下是经过粒度信息移除后的正则表达式:(粒度移除即为 将正则表达式中的口(0x06)字符去掉)english:({number} {number} * {english} {english} *)|( {english} {english} * {number} {number} *)|( {number} {number}*{english}{english}*{number}{number}*)|{english}{english}*{number} {number} * {english} {english} *|({eng】ish} {english} {english} *)通过使用上面两个规则生成的两个DFA,分别为不包含粒度信息的模 式词识别单元,以及包含粒度信息的小粒度区分单元,就可以用来对 "abcl23"这类的字符串识别了,该字符串在大粒度下的输出结果为 "abcl23,,,小粒度下的输出结果为"abc/123"。本发明实施例的命名实体词的识别类模板如表1所示,<table>table see original document page 14</column></row> <table>表1下面,对几种常见的命名实体词的识别过程进行介绍:1、 中文人名:当实际切分过程中遇到姓的时候,则分别将该单字后面的一个单字和两 个单字分别与该姓组合,作为一个候选人名加入到对于人名类的命名实体词的识别类模板中,同时分别计算这两个人名的命名实体词概率,并记录粒度 信息,其中姓氏和名字在最后输出时,在小粒度情况下需分开输出,而大粒 度情况下,则作为一个整体输出。如"周小川",在大粒度下的切分结果为 "周小川",而小粒度下的切分结果为"周/小川";2、 对于外文译名,无论是人名、地名还是组织机构名,作为一个整体输出,无大、小粒度信息;3、对于中文地名这类命名实体词,通常是"地名开始词+—个或多个修饰语+地名关键词"的形式,当然,也可能没有修饰语或开始词,因此在实际分词过程中,当遇到LK关键词时,则向前回溯,同时生成候选地名, 并记录粒度信息。对中文地名类的命名实体词的识别过程可由图3表示,其中,每一个方 格代表一个汉字,具体包括如下步骤:步骤301:根据关键词库识别到一个地名关键词(LK)时,以该词为起 点向前回溯识别,例如图3所示,回溯两个字识别词1 ( Wl )或三个字识别 词2 ( W2 )。步骤302:如果不能继续回溯识别,即再回溯得到的词不属于关键词库 中的;l也名开始词LB或地名非关键词NLK,将Wl或W2标为地名开始词 (LB),将识别出的"LB+LK"作为最终识别的词LW1或LW2,并且在 LB和LK之间设置粒度点。步骤303:如果还可以继续回溯识别,将识别出的Wl或W2标为非地 名关4建词(NLK),同时以词Wl或W2作为起点,继续向前回溯识别,回 溯长度为最大词长(max length word, mlw),并将该词标为W1或W2 。并 在NLK和LK之间设置粒度点。步骤304:假设回溯得到的词为地名开始词(LB),并在LB和NLK 之间也设置粒度点,将识别出"LB+NLK+…+LK"词。步骤305:由于地名关#:词之前的修饰语以及地名开始词的数目不会太 多,因此可以对回溯的次数进行相应限制,本发明实施例将回溯次数限制为 6次。如果取到第六个最长的前驱词,或者句子第一个词,则停止识别,否 则返回步骤303。通过上述过程,可以得到所有的备选地名词及其小粒度信息。这样输出 的时候就可以根据大、小粒度要求,分别以两种格式输出了。如"郑州采育 场",在大粒度下的输出结果为"郑州采育场",在小粒度下的输出结果为"郑州/采育场"。4、对于中文组织机构名的识别及其大、小粒度信息,可利用识别地名 同样的方法得到。中文组织机构明识别过程和大、小粒度获取过程如图4所 示,其中各个缩写词的含义可参照表1。通过上述过程,可以得到所有的备选组织机构名词及其小粒度信息。这 样输出的时候就可以根据大、小粒度要求,分别以两种格式输出了。如"阿 根廷联邦法院,,在大粒度下的输出结果为"阿根廷联邦法院",在小粒度下 的输出结果为"阿根廷/联邦/法院"。本发明实施例提出的一种汉语文本大、小粒度切分装置如图5所示,包括:模式词识别与粒度区分模块510,用于识别汉语文本中的模式词,并对所 识别的模式词进行粒度切分,并输出所述模式词作为模式词的大粒度切分结果, 输出粒度切分后的模式词作为模式词的小粒度切分结果;命名实体词识别模块520,用于识別汉语文本中的命名实体词,输出识别 出的命名实体词以及所述命名实体词的粒度信息;输出模块530 ,用于根据所述模式词识别与粒度区分模块510得到的模 式词的大粒度切分结果或小粒度切分结果,以及所述命名实体词识别模块 520所得到的命名实体词和所述命名实体词的粒度信息,并根据实际输入的 粒度需求,输出根据所述粒度需求所对应的粒度划分的汉语字符串。所述模 式词识别与粒度区分模块510可以进一步包括:模式词识别单元511和小粒 度区分单元512。所述模式词识别单元511根据预先制定的模式词识别规则,用确定性的 DFA表示该规则,这样在分词过程中,就可以使用该有限状态自动机来识 别符合规则的模式词。小粒度区分单元512根据模式词识别规则,以及相应的粒度信息,用 DFA标识带有粒度信息的识别规则,对模式词识别单元511识别出的模式 词进行进一步的小粒度区分。模式词的识别规则和粒度信息如前所述,这里不再赘述。其中,模式词识别单元511所识别的模式词作为模式词大粒度区分结果,小粒度区分单元502对模式词进行进一步小粒度区分得到的是模式词的小粒度区分结果。命名实体词识别模块520,用于识别汉语文本中的命名实体词,输出识 别出的命名实体词以及粒度信息。该模块具体包括:命名实体词识别模型单元521,用于根据标注好粒度信息的语料进行训 练,从所述语料中抽取出命名实体词,给每一类命名实体词制定一个识别类 模板,用所述识别类模板对相应的命名实体词进行标注,得到一个经过识别 类模板标注好的命名实体词训练语料模型。该命名实体词训练语料模型可以 为HMM才莫型。关键词库单元522,用于从命名实体词训练语料中抽取得到关键词库。 识别单元523 ,用于根据命名实体词训练语料模型以及关键词库对命名实体词进行识别,并在识别过程中记录命名实体词的粒度信息。识别过程参见图3或图4。输出模块530,用于根据实际输入的粒度需求,输出根据相应粒度划分 的汉语字符串。本发明实施例提出的大、小粒度分词方案可以提供不同粒度的分词结 果,满足各种文本处理过程的不同粒度区分需求,例如用于信息检索系统增 加索引项,用于文本分析中增加分析粒度,用于机器翻译和语音识别等领域 提高输出结果的精度,或者应用到竟价广告、窄告的用户关键词推荐系统中。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发 明可借助软件加必需的硬件平台的方式来实现,当然也可以全部通过硬件来 实施,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技 术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出 来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘 等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,法。以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本 发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本 发明的保护范围之内。

Claims (13)

1、一种汉语文本的大、小粒度切分实现方法,其特征在于,包括如下步骤: 设置大粒度切分方式和小粒度切分方式; 根据输入的粒度需求,采用相应的粒度切分方式对汉语文本进行切分处理,并输出切分后的汉语文本。
2、 根据权利要求1所述的方法,其特征在于,所述设置大粒度切分方 式和小粒度切分方式包括:制定模式词类别以及相应的粒度标准,根据模式词类别生成不带有粒度 信息的确定状态自动机DFA来识别模式词;根据模式词类别生成带有粒度 信息的DFA来对模式词进行大、小粒度切分。
3、 根据权利要求2所述的方法,其特征在于,所述制定模式词类别以 及相应的粒度标准包括:对于数字和除数字之外的其它字符共同组成的模式词,大粒度切分方式 为将该模式词作为整体,小粒度切分方式为:将数字和除数字之外的其它字 符切分开。
4、 根据权利要求3所述的方法,其特征在于,所述对于数字和除数字 之外的其它字符共同组成的模式词,大粒度切分方式为将该模式词作为整 体,小粒度切分方式为将数字和其它字符切分开,包括如下任一种方式或其 任意组合:对于日期类模式词,大粒度切分方式为将日期词作为一个整体;小粒度 切分方式为:将数字词和日期单位切分开;对于金钱类模式词,大粒度切分方式为将该模式词作为一个整体;小粒 度切分方式为将数字和金钱单位切开;对于百分数类模式词,大粒度切分方式为将该百分数作为一个整体,小粒 度切分方式为将数字和百分号切开;对于度量类模式词,大粒度切分方式为将该模式词作为一个整体,小粒度切分方式为将数字和度量单位切开;对于序数词类模式词,大粒度切分方式为将该模式词作为一个整体,小粒 度切分方式为将序数词、数字和单位之间切开。
5、 根据权利要求4所述的方法,其特征在于,所述度量类模式词包括:角 度、速度、功率、容积、面积、温度、长度、重量、时间和/或年龄。
6、 根据权利要求2所述的方法,其特征在于,所述制定模式词类别以 及相应的粒度标准包括如下4壬一种:对于电子邮件地址类模式词,大粒度切分方式为将电子邮件地址作为一个 整体;小粒度切分方式为将@符号之前的字符串、@符号、@符号之后每个以 点号分隔的字符串分别切开;对于连续的英文字符或数字类模式词,大粒度切分方式和小粒度切分方式 均为将该模式词作为整体,所述数字包括整数或小数;对于英文字符、数字和其它字符中的两种或三种混杂的^f莫式词,大粒度切 分方式为将该模式词作为整体,小粒度切分方式为将英文字符、数字和其它字 符彼此切开;对于分数类模式词,大粒度切分方式为将该模式词作为整体,小粒度切分 方式为将分子、分母以及分子和分母之间的分隔字或符号分开。
7、 根据权利要求1至6任一项所述的方法,其特征在于,所述设置大 粒度切分方式和小粒度切分方式包括:从已标注语料中抽取出命名实体词,对命名实体词进行分类,给每一类 命名实体词制定相应的识别类模板,用所述识别类模板对相应的命名实体词 进行标注,得到包含粒度信息的命名实体词识别模型和关键词库。
8、 根据权利要求7所述的方法,其特征在于,所述用所述识别类模板对相 应的命名实体词进行标注,得到包含粒度信息的命名实体词识别模型和关键词 库包括如下任意一种:对中文人名,大粒度信息的命名实体词识别模型为将姓氏和名字作为整体; ,J 、粒度信息的命名实体词识别模型为将姓氏和名字切分开;对于外文译名,大粒度信息和小粒度信息的命名实体词识别模型均将该词作为整体;对于中文地名或组织机构名,大粒度信息的命名实体词识别模型为将该中 文地名或组织机构名作为整体,小粒度信息的命名实体词模型为将该中文地名 或组织机构名中的开始词、关键词以及各个非关键词切分开。
9、 根据权利要求7所述的方法,其特征在于,所述用所述识别类模板对相 应的命名实体词进行标注,得到包含粒度信息的命名实体词识别模型和关键词 库包括:根据关4定词库识别到 一个地名关4走词时,以该词为起点向前回溯识别; 判断是否可以继续回溯识别,若是,将已识别出词标为非地名关键词 NLK ,同时以该NLK起点,继续向前回溯识别,在NLK和LK之间或NLK 与上一个识别出的NLK之间设置粒度点,并返回所述判断是否可以继续回 溯识别的步骤;否则,将回溯得到的词作为地名开始词LB ,并在LB和NLK 之间设置粒度点。
10、 根据权利要求9所述的方法,其特征在于,所述返回所述判断是否 可以继续回溯识别的步骤之前,进一步包括:判断回溯次数是否已达到预先 设置的最大回溯次数或已回赎到句子的第一个词,若是,则停止识别,否则 返回所述判断是否可以继续回溯识别的步骤。
11、 一种汉语文本的大、小粒度切分装置,其特征在于,包括: 模式词识别与粒度区分模块,用于识别汉语文本中的模式词,并对所识别的模式词进行粒度切分,并输出所述模式词作为模式词的大粒度切分结果,输 出粒度切分后的模式词作为模式词的小粒度切分结果;命名实体词识别模块,用于识别汉语文本中的命名实体词,输出识别出的 命名实体词以及所述命名实体词的粒度信息;输出模块,用于根据所述模式词识别与粒度区分模块得到的模式词的大粒 度切分结果或小粒度切分结果,以及所述命名实体词识别模块所得到的命名实 体词和所述命名实体词的粒度信息,并根据实际输入的粒度需求,输出根据所述粒度需求所对应的粒度划分的汉语字符串。
12、 根据权利要求11所述的装置,其特征在于,所述模式词识别与粒度区 分模块包括:模式词识别单元,用于从汉语文本中识别出模式词; 小粒度区分单元,用于对所述模式词识别单元所识别的模式词进行小粒度 区分。
13、 根据权利要求11所述的装置,其特征在于,所述命名实体词识别模块 包括:命名实体词识别模型单元,用于根据标注好粒度信息的语料进行训练,从所述语料中抽取出命名实体词,给每一类命名实体词制定一个识别类模板,用类模板对相应的命名实体词进行标注,得到一个经过类模板标注好的 命名实体词训练语料模型;关键词库单元,用于从命名实体词训练语料中抽取得到 一 个关键词库;识别单元,用于根据命名实体词训练语料模型以及关键词库对命名实体词进行识别,并给出所述命名实体词的粒度信息。
CN 200810089822 2008-03-28 2008-03-28 一种汉语文本的大、小粒度切分实现方法和装置 CN101246472B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200810089822 CN101246472B (zh) 2008-03-28 2008-03-28 一种汉语文本的大、小粒度切分实现方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200810089822 CN101246472B (zh) 2008-03-28 2008-03-28 一种汉语文本的大、小粒度切分实现方法和装置

Publications (2)

Publication Number Publication Date
CN101246472A true CN101246472A (zh) 2008-08-20
CN101246472B CN101246472B (zh) 2010-10-06

Family

ID=39946932

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200810089822 CN101246472B (zh) 2008-03-28 2008-03-28 一种汉语文本的大、小粒度切分实现方法和装置

Country Status (1)

Country Link
CN (1) CN101246472B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102479191A (zh) * 2010-11-22 2012-05-30 阿里巴巴集团控股有限公司 提供多粒度分词结果的方法及其装置
CN103077164A (zh) * 2012-12-27 2013-05-01 新浪网技术(中国)有限公司 文本分析方法及文本分析器
CN103324626A (zh) * 2012-03-21 2013-09-25 北京百度网讯科技有限公司 一种建立多粒度词典的方法、分词的方法及其装置
CN103544142A (zh) * 2012-07-17 2014-01-29 安凯(广州)微电子技术有限公司 一种状态机
CN104573055A (zh) * 2015-01-21 2015-04-29 南京烽火星空通信发展有限公司 一种网络账号快速检索的分词方法
US9563665B2 (en) 2012-05-22 2017-02-07 Alibaba Group Holding Limited Product search method and system
CN106649249A (zh) * 2015-07-14 2017-05-10 比亚迪股份有限公司 检索方法和检索装置
CN106802886A (zh) * 2016-12-30 2017-06-06 语联网(武汉)信息技术有限公司 一种多语文本的切词方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102479191A (zh) * 2010-11-22 2012-05-30 阿里巴巴集团控股有限公司 提供多粒度分词结果的方法及其装置
TWI512507B (zh) * 2010-11-22 2015-12-11 Alibaba Group Holding Ltd
CN102479191B (zh) 2010-11-22 2014-03-26 阿里巴巴集团控股有限公司 提供多粒度分词结果的方法及其装置
US8892420B2 (en) 2010-11-22 2014-11-18 Alibaba Group Holding Limited Text segmentation with multiple granularity levels
CN103324626A (zh) * 2012-03-21 2013-09-25 北京百度网讯科技有限公司 一种建立多粒度词典的方法、分词的方法及其装置
US9563665B2 (en) 2012-05-22 2017-02-07 Alibaba Group Holding Limited Product search method and system
CN103544142A (zh) * 2012-07-17 2014-01-29 安凯(广州)微电子技术有限公司 一种状态机
CN103077164A (zh) * 2012-12-27 2013-05-01 新浪网技术(中国)有限公司 文本分析方法及文本分析器
CN103077164B (zh) * 2012-12-27 2016-05-11 新浪网技术(中国)有限公司 文本分析方法及文本分析器
CN104573055A (zh) * 2015-01-21 2015-04-29 南京烽火星空通信发展有限公司 一种网络账号快速检索的分词方法
CN104573055B (zh) * 2015-01-21 2017-11-03 南京烽火星空通信发展有限公司 一种网络账号快速检索的分词方法
CN106649249A (zh) * 2015-07-14 2017-05-10 比亚迪股份有限公司 检索方法和检索装置
CN106802886A (zh) * 2016-12-30 2017-06-06 语联网(武汉)信息技术有限公司 一种多语文本的切词方法

Also Published As

Publication number Publication date
CN101246472B (zh) 2010-10-06

Similar Documents

Publication Publication Date Title
Maynard et al. Challenges in developing opinion mining tools for social media
Somprasertsri et al. Mining Feature-Opinion in Online Customer Reviews for Opinion Summarization.
US8346534B2 (en) Method, system and apparatus for automatic keyword extraction
US7949514B2 (en) Method for building parallel corpora
US7689408B2 (en) Identifying language of origin for words using estimates of normalized appearance frequency
US20090193011A1 (en) Phrase Based Snippet Generation
US10191905B2 (en) Sentiment-based classification of media content
US20100185691A1 (en) Scalable semi-structured named entity detection
Hahn et al. Comparing stochastic approaches to spoken language understanding in multiple languages
US8892420B2 (en) Text segmentation with multiple granularity levels
US20100161313A1 (en) Region-Matching Transducers for Natural Language Processing
US20040254795A1 (en) Speech input search system
Zhang et al. Joint word segmentation and POS tagging using a single perceptron
US20110093414A1 (en) System and method for phrase identification
US8131539B2 (en) Search-based word segmentation method and device for language without word boundary tag
Chechik et al. Large-scale content-based audio retrieval from text queries
Maekawa et al. Balanced corpus of contemporary written Japanese
Severyn et al. Automatic feature engineering for answer selection and extraction
Cussens Part-of-speech tagging using Progol
Karimi et al. Machine transliteration survey
Torres-Moreno Automatic text summarization
CN1270361A (zh) 使用内容和扬声器信息进行音频信息检索的方法和装置
US8266169B2 (en) Complex queries for corpus indexing and search
Zechner Automatic generation of concise summaries of spoken dialogues in unrestricted domains
Gupta et al. Query expansion for mixed-script information retrieval

Legal Events

Date Code Title Description
C06 Publication
C10 Entry into substantive examination
C14 Grant of patent or utility model
C41 Transfer of patent application or patent right or utility model