CN103593338A - 一种信息处理方法及装置 - Google Patents
一种信息处理方法及装置 Download PDFInfo
- Publication number
- CN103593338A CN103593338A CN201310574997.7A CN201310574997A CN103593338A CN 103593338 A CN103593338 A CN 103593338A CN 201310574997 A CN201310574997 A CN 201310574997A CN 103593338 A CN103593338 A CN 103593338A
- Authority
- CN
- China
- Prior art keywords
- word
- text
- individual character
- sub
- ambiguity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
本发明公开了一种信息处理方法及装置,所述方法包括:判断待处理的文本中是否存在歧义词;当所述待处理的文本中存在歧义词时,从所述待处理的文本中拆分出歧义词;根据与所述拆分出的歧义词对应的分词规则,对所述拆分出的歧义词进行拆分。本发明实施例提供的信息处理方法及装置,通过对待处理的文本进行歧义词判断,当待处理的文本中存在歧义词时,从待处理的文本中拆分出歧义词,并根据歧义词对应的分词规则对拆分出的歧义词进行拆分,有效地消除了待处理的文本中的歧义词,提高信息处理的准确率。
Description
技术领域
本发明涉及计算机技术,尤其涉及一种信息处理方法及装置。
背景技术
信息处理技术中,中文分词有着广泛的应用,如搜索引擎、文献全文检索、文档自动分类等。
中文分词是将中文语句切分成中文词集合的过程。中文语句是由汉字组成的,但是单个汉字基本不具备表达完整语义的功能,因此,要理解中文语句的语义,首先需要将汉字组成的中文语句拆分成中文词集合。
目前,中文分词方法主要是基于词典匹配进行分词。这种方法是按照一定的策略将待分词的文本与一个具有足够数据量的词典库中的词条进行匹配,若在词典中找到待分词的文本中的汉字串,则匹配成功,并输出所述汉字串。该项技术存在的主要缺陷是当待分词的文本中含有歧义词时,根据词典库中的词条来进行分词很容易出错。因此如何消解待分词的文本中的歧义,是目前基于词典匹配的中文分词技术迫切需要解决的问题。
发明内容
有鉴于此,本发明实施例提供了一种信息处理方法及装置,来消除待分词的文本中的歧义,提高信息处理的准确率。
一方面,本发明实施例提供了一种信息处理方法,所述方法包括:
判断待处理的文本中是否存在歧义词;
当所述待处理的文本中存在歧义词时,从所述待处理的文本中拆分出歧义词;
根据与所述拆分出的歧义词对应的分词规则,对所述拆分出的歧义词进行拆分。
进一步的,判断待处理的文本中是否存在歧义词,包括:
采用逆向最大匹配算法判断所述待处理的文本中与歧义词数据库中是否有相同的词;
当所述待处理的文本中与歧义词数据库中有相同的词时,所述待处理的文本中存在歧义词;当所述待处理的文本中与歧义词数据库中没有相同的词时,所述待处理的文本中不存在歧义词。
进一步的,判断待处理的文本中是否存在歧义词之前,还包括:
根据字符编码、标点符号、人名数据库对接收的信息进行拆分,得到所述待处理的文本;
通过正向最大匹配算法将所述待处理的文本与词语数据库、扩展数据库中的词组匹配,得到第一种匹配结果;
通过逆向最大匹配算法将所述待处理的文本与词语数据库、扩展数据库中的词组匹配,得到第二种匹配结果;
根据所述第一种匹配结果拆分所述待处理的文本,得到第一子文本集合,所述第一子文本集合包括多个子文本;
根据所述第二种匹配结果拆分所述待处理的文本,得到第二子文本集合,所述第二子文本集合包括多个子文本;
当所述第一子文本集合与所述第二子文本集合不相同,且所述第一子文本集合和所述第二子文本集合中具有相同字数的子文本的数量相同,且所述第一子文本集合中子文本的数量等于所述第二子文本集合中子文本的数量时,将所述第一子文本集合作为所述待处理文本的拆分结果,并触发所述判断待处理的文本中是否存在歧义词。
进一步的,根据与所述拆分出的歧义词对应的分词规则,对所述拆分出的歧义词进行拆分之后,还包括:
合并所述拆分结果及对所述拆分出的歧义词进行拆分后得到的结果,得到分词集合,所述分词集合中的分词按照在所述待处理的文本中的位置排列;
当所述分词集合中含有连续的单字时,根据低概率单字数据库判断所述连续的单字中是否含有低概率单字,如果是,则将所述低概率单字左边的连续单字合成为一个词,所述低概率单字右边的连续单字合成为一个词。
进一步的,将所述低概率单字左边的连续单字合成为一个词,所述低概率单字右边的连续单字合成为一个词之后,还包括:
判断合成的词中是否存在长度大于预设值的词,如果存在,则将所述长度大于预设值的词添加到人工识别数据库;
从所述人工识别数据库中筛选出符合预设筛选条件的词;
将筛选出的词添加到所述扩展数据库。
另一方方面,本发明实施例提供了一种信息处理装置,所述装置包括:
第一判断单元,用于判断待处理的文本中是否存在歧义词;
第一拆分单元,用于当所述第一判断单元判断出所述待处理的文本中存在歧义词时,从所述待处理的文本中拆分出歧义词;
第二拆分单元,用于根据与所述第一拆分单元拆分出的歧义词对应的分词规则,对所述拆分出的歧义词进行拆分。
进一步的,所述第一判断单元具体用于:
采用逆向最大匹配算法判断所述待处理的文本中与歧义词数据库中是否有相同的词;
当所述待处理的文本中与歧义词数据库中有相同的词时,所述待处理的文本中存在歧义词;当所述待处理的文本中与歧义词数据库中没有相同的词时,所述待处理的文本中不存在歧义词。
进一步的,所述装置还包括:
预处理单元,用于在所述第一判断单元判断待处理的文本中是否存在歧义词之前根据字符编码、标点符号、人名数据库对接收的信息进行拆分,得到所述待处理的文本;
正向匹配单元,用于通过正向最大匹配算法将所述预处理单元得到待处理的文本与词语数据库、扩展数据库中的词组匹配,得到第一种匹配结果;
逆向匹配单元,用于通过逆向最大匹配算法将所述预处理单元得到待处理的文本与词语数据库、扩展数据库中的词组匹配,得到第二种匹配结果;
正向拆分单元,用于根据所述正向匹配单元得到的第一种匹配结果拆分所述待处理的文本,得到第一子文本集合,所述第一子文本集合包括多个子文本;
逆向拆分单元,用于根据所述逆向匹配单元得到的第二种匹配结果拆分所述待处理的文本,得到第二子文本集合,所述第二子文本集合包括多个子文本;
触发单元,用于当所述第一子文本集合与所述第二子文本集合不相同,且所述第一子文本集合和所述第二子文本集合中具有相同字数的子文本的数量相同,且所述第一子文本集合中子文本的数量等于所述第二子文本集合中子文本的数量时,将所述第一子文本集合作为所述待处理文本的拆分结果,并触发所述判断单元判断待处理的文本中是否存在歧义词。
进一步的,所述装置还包括:
合并单元,用于在所述第二拆分单元根据与所述拆分出的歧义词对应的分词规则,对所述拆分出的歧义词进行拆分之后,合并所述正向拆分单元或逆向拆分单元得到的拆分结果及所述第二拆分单元得到的结果,得到分词集合,所述分词集合中的分词按照在所述待处理的文本中的位置排列;
单字单元,用于当所述分词集合中含有连续的单字时,根据低概率单字数据库判断所述连续的单字中是否含有低概率单字,如果是,将所述低概率单字左边的连续单字合成为一个词,所述低概率单字右边的连续单字合成为一个词。
进一步的,所述装置还包括:
第二判断单元,用于在将所述低概率单字左边的连续单字合成为一个词,所述低概率单字右边的连续单字合成一个词之后,判断合成的词中是否存在长度大于预设值的词,如果存在,则将所述长度大于预设值的词添加到人工识别数据库;
筛选单元,用于从所述人工识别数据库中筛选出符合预设筛选条件的词;
添加单元,用于将筛选出的词添加到所述扩展数据库。
本发明实施例提供的信息处理方法及装置,通过对待处理的文本进行歧义词判断,当待处理的文本中存在歧义词时,从待处理的文本中拆分出歧义词,并根据歧义词对应的分词规则对拆分出的歧义词进行拆分,有效地消除了待处理的文本中的歧义词,提高了信息处理的准确率。
附图说明
图1是本发明第一实施例提供的信息处理方法的流程图;
图2是本发明第二实施例提供的信息处理方法中对接收的信息进行拆分的流程图;
图3是本发明第二实施例提供的信息处理方法中人名识别的流程图;
图4是本发明第三实施例提供的信息处理方法中对含有连续单字的拆分结果处理的流程图;
图5是本发明第三实施例提供的信息处理方法中识别连续单字的流程图;
图6是本发明第四实施例提供的信息处理装置的示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
本发明实施例提供的信息处理方法及装置可用于搜索网页信息、检索文献全文信息、对文档进行自动分类等过程中。
第一实施例
图1是本发明第一实施例提供的信息处理方法的流程图,具体包括如下步骤:
步骤101、判断待处理的文本中是否存在歧义词。
例如,根据歧义词数据库,判断待处理的文本中是否存在歧义词,所述歧义词数据库可包括歧义词以及歧义词对应的分词规则,所述待处理的文本可为中文文本,也可为包括英文字母的文本。
步骤102、当所述待处理的文本中存在歧义词时,从所述待处理的文本中拆分出歧义词。
例如,当所述歧义词位于所述待处理的文本的中间时,可将所述待处理的文本拆分成三部分,歧义词、歧义词左边的部分和歧义词右边的部分,当所述歧义词位于所述待处理的文本的开头或结尾时,可将所述待处理的文本拆分成两部分,如歧义词以及歧义词右边的部分,或者歧义词以及歧义词左边的部分。
示例性的,根据第一个歧义词拆分所述待处理的文本后,还可以继续对所述拆分结果中除拆分出的歧义词之外的部分进行歧义词判断,如果存在歧义词,仍然按照上述过程进行拆分,直到拆分结果中要么只含有歧义词,要么不含歧义词。
步骤103、根据与所述拆分出的歧义词对应的分词规则,对所述拆分出的歧义词进行拆分。
例如,根据上述步骤拆分出歧义词后,根据歧义词数据库判断所述歧义词是否有对应的分词规则,如果是,则按照所述分词规则拆分所述歧义词;如果否,根据语义句法数据库判断所述歧义词以及与所述歧义词相邻的词组的词性或成分属性,并根据所述词性或成分属性进行分词。
本发明实施例提供的信息处理方法,通过对待处理的文本进行歧义词判断,当待处理的文本中存在歧义词时,从待处理的文本中拆分出歧义词,并根据歧义词对应的分词规则对拆分出的歧义词进行拆分,有效地消除了待处理的文本中的歧义词,提高信息处理的准确率。
示例性的,判断待处理的文本中是否存在歧义词可包括:采用逆向最大匹配算法来判断所述待处理的文本中与歧义词数据库中是否有相同的词,当所述待处理的文本中与歧义词数据库中有相同的词时,所述待处理的文本中存在歧义词;当所述待处理的文本中与歧义词数据库中没有相同的词时,所述待处理的文本中不存在歧义词。
第二实施例
本实施例是在上述实施例的基础上增加了如图2所示的步骤。
步骤201、根据字符编码、标点符号、人名数据库对接收的信息进行拆分,得到所述待处理的文本。
例如,所述接收的信息可以为中文,也可以为中文与英文、数字以及标点符号中至少一种的组合。所述待处理的文本为从所述接收的信息中拆分出的文本。
接收到待处理信息后,首先可以根据字符编码及标点符号将所述接收的信息拆分成中文子句和/或英文单词和/或数字串,例如接收的信息为“hello张三,李四去哪里了?”,经过该步骤后,可拆分成“hello”、“张三”、“李四去哪里了”。然后根据人名数据库对拆分得到的中文子句中的人名进行识别,识别过程如图3所示。
步骤301、根据人名数据库查找所述中文子句中的百家姓。
步骤302、当找到百家姓时,对百家姓字后边的一到三个字按照从多到少的顺序与人名数据库进行哈希比对。
步骤303、在所述人名数据库中匹配到结果时,将所述中文子句拆分成人名、人名前面的部分、人名后面的部分三块,得到待处理的文本。
对上述例子拆分的到的中文子句“张三”、“李四去哪里了”根据人名数据库可拆分成“张三”、“李四”、“去哪里了”。所述中文子句“去哪里了”为经步骤201处理后得到的待处理的文本。
通过步骤301到步骤302,提高了对接收的信息的处理速度。
步骤202、通过正向最大匹配算法将所述待处理的文本与词语数据库、扩展数据库中的词组匹配,得到第一种匹配结果。
所述待处理的文本可以为没有人名的中文子句。所述正向最大匹配算法的思想是从左到右选取一定数量的字,组成词,然后与词语数据库、扩展数据库中的词组匹配,例如可以从左到右从所述中文子句中选取5个字,成为组成词,然后与词语数据库、扩展数据库中的词组匹配,如果找到与所述组成词匹配的词组,则匹配成功,依次从左到右重新开始选5个字继续上述步骤;如果未找到,则匹配不成功,去掉所述组成词中的最后一个词,重复上述步骤。其中初次选取的字的个数可以预先设置。
步骤203、通过逆向最大匹配算法将所述待处理的文本与词语数据库、扩展数据库中的词组匹配,得到第二种匹配结果。
所述逆向最大匹配算法的思想与所述整向最大匹配算法思想相同,只是选取组成词的方向不一致,从右到左选取一定数量的字,组成词,然后与词语数据库、扩展数据库中的词组匹配,例如可以从右到左从所述中文子句中选取5个字,成为组成词,然后与词语数据库、扩展数据库中的词组匹配,如果找到与所述组成词匹配的词组,则匹配成功,依次从右到左重新开始选5个字继续上述步骤;如果未找到,则匹配不成功,去掉所述组成词中的第一个词,重复上述步骤。其中初次选取字的个数可以预先设置。
步骤204、根据所述第一种匹配结果拆分所述待处理的文本,得到第一子文本集合,所述第一子文本集合包括多个子文本。
步骤205、根据所述第二种匹配结果拆分所述待处理的文本,得到第二子文本集合,所述第二子文本集合包括多个子文本。
例如,对“我们在野生动物园玩”,采用正向最大匹配算法匹配,最终输出结果为“我们”、“在野”、“生动”、“物”、“园”、“玩”。采用正向最大匹配算法匹配,最终输出结果为“我们”、“在”、“野生动物园”、“玩”。
再例如,对“我一个人玩耍”,采用正向最大匹配算法,最终输出结果为:“我”、“一个”、“人”、“玩耍”。采用逆向最大匹配算法,最终输出结果为,“我”、“一”、“个人”、“玩耍”。
步骤206、当所述第一子文本集合与所述第二子文本集合不相同,且所述第一子文本集合和所述第二子文本集合中具有相同字数的子文本的数量相同,且所述第一子文本集合中子文本的数量等于所述第二子文本集合中子文本的数量时,将所述第一子文本集合作为所述待处理文本的拆分结果,并触发所述判断待处理的文本中是否存在歧义词。
本实施例中,当对中文子句采用正、逆向最大匹配算法得到的第一子文本集合与第二子文本集中子文本的数量相同,且每个子文本中的内容相同时,可以选取第一子文本集作为所述待处理文本的拆分结果,且不对所述中文字句进行歧义词判断。
当对中文子句采用正、逆向最大匹配算法得到的第一子文本集合与第二子文本集中子文本的数量不相同时,采用大颗粒度词越多越好,单字越少越好的原则进行筛选,如果筛选到一个最优结果时,不对所述中文字句进行歧义词判断。例如,对“我们在野生动物园玩”采用正向和逆向最大匹配算法拆分得到的结果不相同,但根据大颗粒度词越多越好,单字越少越好的原则可知,采用逆向最大匹配算法拆分的结果中含有大颗粒度词“野生动物园”,因此将“我们”、“在”、“野生动物园”、“玩”作为后续处理子句,且不进行歧义词判断。
当对中文子句采用正、逆向最大匹配算法得到的第一子文本集合与第二子文本集中子文本的数量相同,且所述第一子文本集合中子文本的数量等于所述第二子文本集合中子文本的数量时,可将所述第一子文本集合作为所述待处理文本的拆分结果,同时触发判断待处理的文本中是否存在歧义词,然后执行步骤101到步骤103。例如,对“我一个人玩耍”采用正向和逆向最大匹配算法拆分得到的结果无法采用大颗粒度词越多越好,单字越少越好的原则分出最优结果,可以将采用正向最大匹配算法得到的结果作为后续处理子句,并对所述中文子句“我一个人玩耍”进行歧义词判断与拆分。
本发明实施例提供的信息处理方法通过在判断待处理的文本中是否含有歧义词之前,首先对接收的信息进行预处理得到待处理的中文文本,然后采用正向最大匹配算法和逆向匹配算法对待处理的文本匹配并拆分,获得两种拆分结果,通过比较两种拆分结果,当比较结果符合一定条件时,开始判断待处理文本中的歧义词,从而减少了判断程序的调用量,提高了对接收的信息的处理效率。
第三实施例
本实施例在上述实施例的基础上,增加了如图4所示的步骤。
步骤401、合并所述拆分结果及对所述拆分出的歧义词进行拆分后得到的结果,得到分词集合,所述分词集合中的分词按照在所述待处理的文本中的位置排列。
合并经过正向或逆向最大匹配算法得到的拆分结果和由第一实施例得到的拆分结果,合并的方式可以为将经过正向或逆向最大匹配算法得到的拆分结果中的歧义词部分按照第一实施例提供的方法来拆分,其它部分保持不变。
步骤402、当所述分词集合中含有连续的单字时,根据低概率单字数据库判断所述连续的单字中是否含有低概率单字,如果是,将所述低概率单字左边的连续单字合成为一个词,所述低概率单字右边的连续单字合成一个词。
示例性的,将所述低概率单字左边的连续单字合成为一个词,所述低概率单字右边的连续单字合成一个词之后,本发明实施例提供的信息处理方法还可包括如图5所示的步骤。
步骤501、判断合成的词中是否存在长度大于预设值的词,如果存在,则将所述长度大于预设值的词添加到人工识别数据库。
例如,预设值可以为2,当所述合成的词的长度大于或等于2时,可将所述合成的词添加到人工识别数据中。
步骤502、从所述人工识别数据库中筛选出符合预设筛选条件的词。
所述预设的筛选条件可以为根据经验判断、根据词条出现的概率判断等,在此不作具体限定。
步骤503、将筛选出的词添加到所述扩展数据库。
将符合预设筛选条件的词添加到所述扩展数据库中,用于丰富所述词语数据库。
例如,中文子句“巴赛尔在高崖头讲话”经过上述拆分与合并后得到的拆分结果为“巴”、“赛”、“尔”、“在”、“高”、“崖”、“头”、“讲话”,其中“巴”、“赛”、“尔”、“在”、“高”、“崖”、“头”为连续的单字,根据低概率单字数据可知“在”存在于所述低概率数据中,因此可以将所述连续的单字划分为“巴赛尔”、“在”、“高崖头”三部分。经过上述步骤后,可以将“巴赛尔”和“高崖头”添加到人工识别库,根据经验可判断“巴赛尔”为一人名,因此可以将“巴赛尔”这个词添加到扩展数据库中,下次进行含有“巴赛尔”这一词的中文子句的匹配时,可以直接匹配到该词,但本次拆分结果仍然为连续的单字。如果根据经验判断“高崖头”为一地名,也可以将“高崖头”这个词添加到扩展数据库,如果无法判断“高崖头”为一个词,则不对所述词条进行处理。
本发明实施例提供的信息处理方法,通过将采用正向或逆向最大匹配算法对待处理的文本拆分得到的结果与歧义拆分得到的结果进行合并,并对合并后的结果中连续的单字进行判断和识别,从而提高了新词的适应性,扩充了词语数据库。
第四实施例
图6是本发明第四实施例提供的信息处理装置的示意图,用于实现图1所示的方法,所述装置包括:第一判断单元601、第一拆分单元602和第二拆分单元603。其中,所述第一判断单元601用于判断待处理的文本中是否存在歧义词;所述第一拆分单元602用于当所述第一判断单元601判断出所述待处理的文本中存在歧义词时,从所述待处理的文本中拆分出歧义词;所述第二拆分单元603用于根据与所述第一拆分单元602拆分出的歧义词对应的分词规则,对所述拆分出的歧义词进行拆分。
示例性的,所述第一判断单元601具体可用于采用逆向最大匹配算法判断所述待处理的文本中与歧义词数据库中是否有相同的词;当所述待处理的文本中与歧义词数据库中有相同的词时,所述待处理的文本中存在歧义词;当所述待处理的文本中与歧义词数据库中没有相同的词时,所述待处理的文本中不存在歧义词。
示例性的,所述装置还可包括:预处理单元604、正向匹配单元605、逆向匹配单元606、正向拆分单元607、逆向拆分单元608和触发单元609。其中,所述预处理单元604用于在所述第一判断单元判断待处理的文本中是否存在歧义词之前根据字符编码、标点符号、人名数据库对接收的信息进行拆分,得到所述待处理的文本;所述正向匹配单元605用于通过正向最大匹配算法将所述预处理单元得到待处理的文本与词语数据库、扩展数据库中的词组匹配,得到第一种匹配结果;所述逆向匹配单元606用于通过逆向最大匹配算法将所述预处理单元得到待处理的文本与词语数据库、扩展数据库中的词组匹配,得到第二种匹配结果;所述正向拆分单元607用于根据所述正向匹配单元得到的第一种匹配结果拆分所述待处理的文本,得到第一子文本集合,所述第一子文本集合包括多个子文本;所述逆向拆分单元608用于根据所述逆向匹配单元得到的第二种匹配结果拆分所述待处理的文本,得到第二子文本集合,所述第二子文本集合包括多个子文本;所述触发单元609用于当所述第一子文本集合与所述第二子文本集合不相同,且所述第一子文本集合和所述第二子文本集合中具有相同字数的子文本的数量相同,且所述第一子文本集合中子文本的数量等于所述第二子文本集合中子文本的数量时,将所述第一子文本集合作为所述待处理文本的拆分结果,并触发所述判断单元判断待处理的文本中是否存在歧义词。
示例性的,所述装置还可包括:合并单元610、单字处理单元611。其中所述合并单元610用于在所示第二拆分单元603根据与所述拆分出的歧义词对应的分词规则,对所述拆分出的歧义词进行拆分之后,合并所述正向拆分单元或逆向拆分单元得到的拆分结果及所述第二拆分单元得到的结果,得到分词集合,所述分词集合中的分词按照在所述待处理的文本中的位置排列;所述单字处理单元611用于当所述分词集合中含有连续的单字时,根据低概率单字数据库判断所述连续的单字中是否含有低概率单字,如果是,将所述低概率单字左边的连续单字合成为一个词,所述低概率单字右边的连续单字合成为一个词。
示例性的,所述装置还可包括:第二判断单元612、筛选单元613和添加单元614。其中,所述第二判断单元612用于在将所述低概率单字左边的连续单字合成为一个词,所述低概率单字右边的连续单字合成为一个词之后,判断合成的词中是否存在长度大于预设值的词,如果存在,则将所述长度大于预设值的词添加到人工识别数据库;所述筛选单元613用于从所述人工识别数据库中筛选出符合预设筛选条件的词;所述添加单元614用于将筛选出的词添加到所述扩展数据库。
本发明实施例提供的信息处理装置用于执行本发明任意实施例提供的信息处理方法,具备相应的功能模块,可达到与所述方法相似的技术效果,此处不再赘述。
显然,本领域技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,或者分布在多个计算装置所组成的网络上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种信息处理方法,其特征在于,所述方法包括:
判断待处理的文本中是否存在歧义词;
当所述待处理的文本中存在歧义词时,从所述待处理的文本中拆分出歧义词;
根据与所述拆分出的歧义词对应的分词规则,对所述拆分出的歧义词进行拆分。
2.根据权利要求1所述的方法,其特征在于,判断待处理的文本中是否存在歧义词,包括:
采用逆向最大匹配算法判断所述待处理的文本中与歧义词数据库中是否有相同的词;
当所述待处理的文本中与歧义词数据库中有相同的词时,所述待处理的文本中存在歧义词;当所述待处理的文本中与歧义词数据库中没有相同的词时,所述待处理的文本中不存在歧义词。
3.根据权利要求1或2所述的方法,其特征在于,判断待处理的文本中是否存在歧义词之前,还包括:
根据字符编码、标点符号、人名数据库对接收的信息进行拆分,得到所述待处理的文本;
通过正向最大匹配算法将所述待处理的文本与词语数据库、扩展数据库中的词组匹配,得到第一种匹配结果;
通过逆向最大匹配算法将所述待处理的文本与词语数据库、扩展数据库中的词组匹配,得到第二种匹配结果;
根据所述第一种匹配结果拆分所述待处理的文本,得到第一子文本集合,所述第一子文本集合包括多个子文本;
根据所述第二种匹配结果拆分所述待处理的文本,得到第二子文本集合,所述第二子文本集合包括多个子文本;
当所述第一子文本集合与所述第二子文本集合不相同,且所述第一子文本集合和所述第二子文本集合中具有相同字数的子文本的数量相同,且所述第一子文本集合中子文本的数量等于所述第二子文本集合中子文本的数量时,将所述第一子文本集合作为所述待处理文本的拆分结果,并触发所述判断待处理的文本中是否存在歧义词。
4.根据权利要求3所述的方法,其特征在于,根据与所述拆分出的歧义词对应的分词规则,对所述拆分出的歧义词进行拆分之后,还包括:
合并所述拆分结果及对所述拆分出的歧义词进行拆分后得到的结果,得到分词集合,所述分词集合中的分词按照在所述待处理的文本中的位置排列;
当所述分词集合中含有连续的单字时,根据低概率单字数据库判断所述连续的单字中是否含有低概率单字,如果是,则将所述低概率单字左边的连续单字合成为一个词,所述低概率单字右边的连续单字合成为一个词。
5.根据权利要求4所述的方法,其特征在于,将所述低概率单字左边的连续单字合成为一个词,所述低概率单字右边的连续单字合成为一个词之后,还包括:
判断合成的词中是否存在长度大于预设值的词,如果存在,则将所述长度大于预设值的词添加到人工识别数据库;
从所述人工识别数据库中筛选出符合预设筛选条件的词;
将筛选出的词添加到所述扩展数据库。
6.一种信息处理装置,其特征在于,所述装置包括:
第一判断单元,用于判断待处理的文本中是否存在歧义词;
第一拆分单元,用于当所述第一判断单元判断出所述待处理的文本中存在歧义词时,从所述待处理的文本中拆分出歧义词;
第二拆分单元,用于根据与所述第一拆分单元拆分出的歧义词对应的分词规则,对所述拆分出的歧义词进行拆分。
7.根据权利要求6所述的装置,其特征在于,所述第一判断单元具体用于:
采用逆向最大匹配算法判断所述待处理的文本中与歧义词数据库中是否有相同的词;
当所述待处理的文本中与歧义词数据库中有相同的词时,所述待处理的文本中存在歧义词;当所述待处理的文本中与歧义词数据库中没有相同的词时,所述待处理的文本中不存在歧义词。
8.根据权利要求6或7所述的装置,其特征在于,所述装置还包括:
预处理单元,用于在所述第一判断单元判断待处理的文本中是否存在歧义词之前,根据字符编码、标点符号、人名数据库对接收的信息进行拆分,得到所述待处理的文本;
正向匹配单元,用于通过正向最大匹配算法将所述预处理单元得到待处理的文本与词语数据库、扩展数据库中的词组匹配,得到第一种匹配结果;
逆向匹配单元,用于通过逆向最大匹配算法将所述预处理单元得到待处理的文本与词语数据库、扩展数据库中的词组匹配,得到第二种匹配结果;
正向拆分单元,用于根据所述正向匹配单元得到的第一种匹配结果拆分所述待处理的文本,得到第一子文本集合,所述第一子文本集合包括多个子文本;
逆向拆分单元,用于根据所述逆向匹配单元得到的第二种匹配结果拆分所述待处理的文本,得到第二子文本集合,所述第二子文本集合包括多个子文本;
触发单元,用于当所述第一子文本集合与所述第二子文本集合不相同,且所述第一子文本集合和所述第二子文本集合中具有相同字数的子文本的数量相同,且所述第一子文本集合中子文本的数量等于所述第二子文本集合中子文本的数量时,将所述第一子文本集合作为所述待处理文本的拆分结果,并触发所述判断单元判断待处理的文本中是否存在歧义词。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
合并单元,用于在所述第二拆分单元根据与所述拆分出的歧义词对应的分词规则,对所述拆分出的歧义词进行拆分之后,合并所述正向拆分单元或逆向拆分单元得到的拆分结果及所述第二拆分单元得到的结果,得到分词集合,所述分词集合中的分词按照在所述待处理的文本中的位置排列;
单字处理单元,用于当所述分词集合中含有连续的单字时,根据低概率单字数据库判断所述连续的单字中是否含有低概率单字,如果是,将所述低概率单字左边的连续单字合成为一个词,所述低概率单字右边的连续单字合成为一个词。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
第二判断单元,用于在所述合成单元将所述低概率单字左边的连续单字合成为一个词,所述低概率单字右边的连续单字合成一个词之后,判断合成的词中是否存在长度大于预设值的词,如果存在,则将所述长度大于预设值的词添加到人工识别数据库;
筛选单元,用于从所述人工识别数据库中筛选出符合预设筛选条件的词;
添加单元,用于将筛选出的词添加到所述扩展数据库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310574997.7A CN103593338B (zh) | 2013-11-15 | 2013-11-15 | 一种信息处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310574997.7A CN103593338B (zh) | 2013-11-15 | 2013-11-15 | 一种信息处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103593338A true CN103593338A (zh) | 2014-02-19 |
CN103593338B CN103593338B (zh) | 2016-05-11 |
Family
ID=50083488
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310574997.7A Active CN103593338B (zh) | 2013-11-15 | 2013-11-15 | 一种信息处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103593338B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105468584A (zh) * | 2015-12-31 | 2016-04-06 | 武汉鸿瑞达信息技术有限公司 | 文本中不良文字信息的过滤方法及过滤系统 |
CN107424612A (zh) * | 2017-07-28 | 2017-12-01 | 北京搜狗科技发展有限公司 | 处理方法、装置和机器可读介质 |
CN107608968A (zh) * | 2017-09-22 | 2018-01-19 | 深圳市易图资讯股份有限公司 | 面向文本大数据的中文分词方法、装置 |
CN108009153A (zh) * | 2017-12-08 | 2018-05-08 | 北京明朝万达科技股份有限公司 | 一种基于搜索语句切词结果的搜索方法及系统 |
CN108959575A (zh) * | 2018-07-06 | 2018-12-07 | 北京神州泰岳软件股份有限公司 | 一种企业关联关系信息挖掘方法及装置 |
CN109636352A (zh) * | 2018-12-20 | 2019-04-16 | 湖南晖龙集团股份有限公司 | 一种基于财政大数据的分布式内容查重预警系统 |
CN112256176A (zh) * | 2020-10-23 | 2021-01-22 | 北京字节跳动网络技术有限公司 | 文字显示方法、装置、电子设备以及计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101067809A (zh) * | 2007-06-22 | 2007-11-07 | 蒋贤春 | 独立词切分 |
CN101295294A (zh) * | 2008-06-12 | 2008-10-29 | 昆明理工大学 | 基于信息增益改进贝叶斯词义消歧方法 |
CN102402502A (zh) * | 2011-11-24 | 2012-04-04 | 北京趣拿信息技术有限公司 | 用于搜索引擎的分词处理方法和装置 |
CN102915299A (zh) * | 2012-10-23 | 2013-02-06 | 海信集团有限公司 | 一种分词方法及装置 |
-
2013
- 2013-11-15 CN CN201310574997.7A patent/CN103593338B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101067809A (zh) * | 2007-06-22 | 2007-11-07 | 蒋贤春 | 独立词切分 |
CN101295294A (zh) * | 2008-06-12 | 2008-10-29 | 昆明理工大学 | 基于信息增益改进贝叶斯词义消歧方法 |
CN102402502A (zh) * | 2011-11-24 | 2012-04-04 | 北京趣拿信息技术有限公司 | 用于搜索引擎的分词处理方法和装置 |
CN102915299A (zh) * | 2012-10-23 | 2013-02-06 | 海信集团有限公司 | 一种分词方法及装置 |
Non-Patent Citations (1)
Title |
---|
曹卫峰: "中文分词关键技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105468584A (zh) * | 2015-12-31 | 2016-04-06 | 武汉鸿瑞达信息技术有限公司 | 文本中不良文字信息的过滤方法及过滤系统 |
CN107424612A (zh) * | 2017-07-28 | 2017-12-01 | 北京搜狗科技发展有限公司 | 处理方法、装置和机器可读介质 |
CN107608968A (zh) * | 2017-09-22 | 2018-01-19 | 深圳市易图资讯股份有限公司 | 面向文本大数据的中文分词方法、装置 |
CN108009153A (zh) * | 2017-12-08 | 2018-05-08 | 北京明朝万达科技股份有限公司 | 一种基于搜索语句切词结果的搜索方法及系统 |
CN108959575A (zh) * | 2018-07-06 | 2018-12-07 | 北京神州泰岳软件股份有限公司 | 一种企业关联关系信息挖掘方法及装置 |
CN108959575B (zh) * | 2018-07-06 | 2019-09-24 | 北京神州泰岳软件股份有限公司 | 一种企业关联关系信息挖掘方法及装置 |
CN109636352A (zh) * | 2018-12-20 | 2019-04-16 | 湖南晖龙集团股份有限公司 | 一种基于财政大数据的分布式内容查重预警系统 |
CN112256176A (zh) * | 2020-10-23 | 2021-01-22 | 北京字节跳动网络技术有限公司 | 文字显示方法、装置、电子设备以及计算机可读存储介质 |
CN112256176B (zh) * | 2020-10-23 | 2022-04-05 | 北京字节跳动网络技术有限公司 | 文字显示方法、装置、电子设备以及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN103593338B (zh) | 2016-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103593338A (zh) | 一种信息处理方法及装置 | |
CN102915299B (zh) | 一种分词方法及装置 | |
WO2017084506A1 (zh) | 搜索查询词纠错方法和装置 | |
CN108829658B (zh) | 新词发现的方法及装置 | |
CN102708100B (zh) | 挖掘相关实体词的关系关键词的方法和装置及其应用 | |
US7542966B2 (en) | Method and system for retrieving documents with spoken queries | |
CN103678684B (zh) | 一种基于导航信息检索的中文分词方法 | |
CN102479191B (zh) | 提供多粒度分词结果的方法及其装置 | |
CN103365925B (zh) | 获取多音字拼音、基于拼音检索的方法及其相应装置 | |
US7937338B2 (en) | System and method for identifying document structure and associated metainformation | |
JPH1049549A (ja) | 文書検索装置 | |
CN108052500B (zh) | 一种基于语义分析的文本关键信息提取方法及装置 | |
CN102339294B (zh) | 一种对关键词进行预处理的搜索方法和系统 | |
WO2009076252A1 (en) | Indexing and searching audio using text indexers | |
CN106205613B (zh) | 一种导航语音识别方法及系统 | |
CN104102681A (zh) | 一种微博关键事件获取方法和装置 | |
CN101751434A (zh) | 一种元搜索引擎的排名方法及元搜索引擎 | |
CN102750379A (zh) | 一种基于过滤型的字符串快速匹配方法 | |
CN102486787A (zh) | 用于提取文档结构的方法和装置 | |
Ng | Information fusion for spoken document retrieval | |
CN101286175B (zh) | 一种基于标签的文件呈现方法及其系统 | |
CN105404677A (zh) | 一种基于树形结构的检索方法 | |
CN101655846A (zh) | 中文输入法标点关联方法及装置 | |
CN102314464A (zh) | 歌词搜索方法及搜索引擎 | |
US9218336B2 (en) | Efficient implementation of morphology for agglutinative languages |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |