CN107992475A

CN107992475A - 一种基于车载导航仪全文检索的多语言分词方法及装置

Info

Publication number: CN107992475A
Application number: CN201711209343.9A
Authority: CN
Inventors: 罗跃军; 姜子奇; 周文昉
Original assignee: Wuhan Zhonghai Data Technology Co Ltd
Current assignee: Wuhan Zhonghai Data Technology Co Ltd
Priority date: 2017-11-27
Filing date: 2017-11-27
Publication date: 2018-05-04

Abstract

本发明涉及一种基于车载导航仪全文检索的多语言分词方法及装置，方法包括：根据标点符号对输入文本进行切分，得到一个或多个子文本；判断是否存在仅包含英文字母或数字的子文本，如果是则将所述仅包含英文字母或数字的子文本作为第一子文本并做歧义判断进行二次切分并输出，否则将除所述第一子文本外的其他子文本作为第二子文本；根据语言编码识别机制，将第二子文本切分，得到仅包含单一语种的多个字符串；利用正向最大匹配算法对所述多个字符串进行切分得到最终分词结果并输出。在车载导航仪上使用全文检索时，对用户输入的文本进行分词，不依赖外部词库，通过一套算法将用户输入的包含混合字符串的文本切分成可以用于全文检索的具体分词。

Description

一种基于车载导航仪全文检索的多语言分词方法及装置

技术领域

本发明涉及车载导航及文字检索技术领域，具体涉及一种基于车载导航仪全文检索的多语言分词方法及装置。

背景技术

随着检索技术发展以及输入法发展，传统车载导航系统基于NVC的逐字检索方案不管是从用户体验还是检索效率上，已经不能满足当下人们对导航产品的需求。而全文检索(Fulltextsearch)技术凭借其高效的检索效率，应用领域也是越来越广泛。因此在车载导航仪上使用全文检索技术也将成为一种趋势。

但在使用全文检索技术过程中，分词技术就是其核心技术之一。分词(Token)，就是借助计算机自动给短句或长句文本切分成一个个分词，并使其能够正确的表达其原来的意思。只要是与语言理解相关的领域，都是需要用到分词技术的。

各个国家与地区的语言语法、书写习惯等因素的不一致，导致了它们需要用不同的分词方法。对于西方屈折语的文本单词与单词之间存在一个空格指示词的边界，根据空格和符号可以轻易分词；但对于那些孤立语和黏着语(如中文、韩语、藏语等)的文本，每个词之间没有任何标志指示词的边界，且如果以字为单位来切分文本，不但会带来巨大的空间消耗，更重要的是单个字检索结果比较庞大，这样会导致检索结果与用户原意不符。

对于现有全文检索技术中的分词器(Tokenizer)，大多数只能支持单一语言，而且对于那些孤立语和黏着语(如中文、韩语、藏语等)的文本分词效果并不好。

发明内容

本发明针对现有技术中存在的技术问题，提供一种基于车载导航仪全文检索的多语言分词方法及装置，在车载导航仪上使用全文检索时，对用户输入的文本进行分词，不依赖外部词库，通过一套算法将用户输入的包含混合字符串的文本切分成可以用于全文检索的具体分词。

本发明解决上述技术问题的技术方案如下：

本发明一方面提供一种基于车载导航仪全文检索的多语言分词方法，包括以下步骤：。

步骤1，对输入文本进行初步处理，根据文本中的标点符号对输入文本进行切分，若无标点符号则不切分，得到一个或多个子文本；

步骤2，判断所述一个或多个子文本中是否存在仅包含英文字母或者仅包含英文字母和数字的子文本，如果是则将所述仅包含英文字母或者仅包含英文字母和数字的子文本作为第一子文本并对所述第一子文本做歧义判断进行二次切分并输出，否则将除所述第一子文本外的其他子文本作为第二子文本并执行步骤3；

步骤3，根据语言编码识别机制，将所述第二子文本切分，得到仅包含单一语种的多个字符串；

步骤4，利用正向最大匹配算法对所述多个字符串中的亚洲字符串进行切分，得到最终分词结果并输出。

进一步，所述步骤1包括：

根据UNICODE编码规则，检索输入文本中的标点符号以及空格符号，并将所述标点符号和空格符号构造成分隔符，将所述输入文本分割成多个子文本，若输入文本中不存在标点符号以及空格符号则将所述输入文本作为一个独立的子文本。

进一步，步骤2中所述的对所述第一子文本做歧义判断进行二次切分，得到多个字符串，包括：

获取车载导航仪收录的检索数据的言语种别，并分析所述言语种别中是否含有西方屈折语种别或汉语拼音；

若车载导航仪支持西方屈折语检索，则对所述第一子文本不在进一步分词；若车载导航仪支持汉语拼音检索，则根据汉语拼音规则对所述第一子文本进行分词；将基于西方屈折语检索的分词结果与基于汉语拼音规则的分析结果组合成分词结果集并展示给用户；

根据用户的选择信息确定分词方案并输出。

进一步，所述步骤3包括：

通过语言编码识别机制识别第二子文本中所包含的语种信息，根据所述语种信息，将所述第二子文本切分成多个连续的仅包含单一语种的字符串。

进一步，所述步骤4包括：

设置最小切分阈值，若所述字符串中字符数量不大于所述最小切分阈值，则对该字符串不做切分，否则，从左到右将切分文本中的几个连续字符按照正向最大匹配算法进行切分，针对切分过程中可能产生的多个切分方案，按照以下原则进行筛选确认并输出：

1)切分后的字符串长度越长，优先级越高；

2)切分后的字符串个数越少，优先级越高。

本发明的有益效果是：在车载导航仪上使用全文检索时，对用户输入的文本进行分词，不依赖外部词库，通过一套算法将用户输入的包含混合字符串的文本切分成可以用于全文检索的具体分词，有效避免了由于各个国家与地区的语言语法、书写习惯等因素的不一致，而导致它们需要用不同的分词方法的问题。

本发明另一方面提供一种基于车载导航仪全文检索的多语言分词装置，包括：

预处理模块，用于对输入文本进行初步处理，根据文本中的标点符号对输入文本进行切分，若无标点符号则不切分，得到一个或多个子文本；

歧义判断模块，用于判断所述一个或多个子文本中是否存在仅包含英文字母或者仅包含英文字母和数字的子文本，如果是则将所述仅包含英文字母或者仅包含英文字母和数字的子文本作为第一子文本并对所述第一子文本做歧义判断进行二次切分；

语种切分模块，用于根据语言编码识别机制，将所述第二子文本切分，得到仅包含单一语种的多个字符串；

分词结果生成模块，用于利用正向最大匹配算法对所述多个字符串中的亚洲字符串进行切分，得到最终分词结果。

进一步，所述预处理模块具体用于：

进一步，所述的对所述第一子文本做歧义判断进行二次切分，得到多个字符串，包括：

根据用户的选择信息确定分词方案。

进一步，所述语种切分模块具体用于：

进一步，所述分词结果生成模块具体用于：

设置最小切分阈值，若所述字符串中字符数量不大于所述最小切分阈值，则对该字符串不做切分，否则，从左到右将切分文本中的几个连续字符按照正向最大匹配算法进行切分，针对切分过程中可能产生的多个切分方案，按照以下原则进行筛选：

1)切分后的字符串长度越长，优先级越高；

2)切分后的字符串个数越少，优先级越高。

附图说明

图1为本发明实施例提供的一种基于车载导航仪全文检索的多语言分词方法流程图；

图2为本发明实施例提供的一种基于车载导航仪全文检索的多语言分词装置结构示意图。

具体实施方式

以下结合实例对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

本发明需要满足以下条件：

a)导航仪检索功能支持全文检索；

b)用于全文检索的分词器(Tokenizer)，支持按空格切分字符串；

c)导航仪检索数据中亚洲语系字符串已经做了较为准确的分词处理；

d)导航仪检索数据中亚洲语系字符串分词方式不能为二元分词。

图1为本发明实施例提供的一种基于车载导航仪全文检索的多语言分词方法流程图，如图1所示，包括以下步骤：。

步骤1，根据UNICODE编码规则，检索输入文本中的标点符号以及空格符号，并将所述标点符号和空格符号构造成分隔符，将所述输入文本分割成多个子文本，若输入文本中不存在标点符号以及空格符号则将所述输入文本作为一个独立的子文本。

例如：用户输入字符串“中国农业银行(江夏支行)”通过步骤1，切分成“中国农业银行”|“江夏支行”。

步骤2，判断所述一个或多个子文本中是否存在仅包含英文字母或者仅包含英文字母和数字的子文本，如果是则将所述仅包含英文字母或者仅包含英文字母和数字的子文本作为第一子文本并对所述第一子文本做歧义判断：

根据用户的选择信息确定分词方案并输出。

否则将除所述第一子文本外的其他子文本作为第二子文本并执行步骤3。

例如：导航仪支持拼音检索、英文检索，当用户输入字符串“change”，通过步骤1，得到“change”；

通过步骤2，可以获得三个分词结果：

结果一：通过西方屈折语检索，分词结果为“change”；

结果二：通过汉语拼音检索，分词结果为“chang”|“e”；

结果三：通过汉语拼音检索，分词结果为“chan”|“ge”；

假如“change”、“change”可以检索到信息，则需要展示给用户，让用户选择检索汉语拼音：“change”还是检索字符串“change”；

假如“change”检索不到任何信息，则不需要向用户展示。

步骤3，通过语言编码识别机制识别第二子文本中所包含的语种信息，根据所述语种信息，将所述第二子文本切分成多个连续的仅包含单一语种的字符串(包括数字、字母、中文，日文等等以及连续的无法识别的特殊字符)。

例如：用户输入字符串“东风标致4008自动挡汽车”通过步骤1没有切分“东风标致4008自动挡汽车”，通过步骤4，被切分成“东风标致”|“4008”|“自动挡汽车”。

步骤4，利用正向最大匹配算法对所述多个字符串进行切分得到最终分词结果。

设置最小切分阈值n，若所述字符串中字符数量不大于所述最小切分阈值，则对该字符串不做切分，比如中文设置n为3，小于等于3个字的中文切分文本不再继续切分。

否则，从左到右将所述字符串按照正向最大匹配算法进行切分，针对切分过程中可能产生的多个切分方案，按照以下原则进行筛选确认并输出：

1)切分后的字符串长度越长，优先级越高；

2)切分后的字符串个数越少，优先级越高。

例如：用户输入字符串“东风标致4008自动挡汽车”，通过步骤5进一步分词被切分成：

“东风”|“标致”|“4008”|“自动挡”|“汽车”。

本发明另一方面提供一种基于车载导航仪全文检索的多语言分词装置，如图2所示，包括：

分词结果生成模块，用于利用正向最大匹配算法对所述多个字符串进行切分得到最终分词结果。

进一步，所述预处理模块具体用于：

根据用户的选择信息确定分词方案。

进一步，所述语种切分模块具体用于：

进一步，所述分词结果生成模块具体用于：

设置最小切分阈值，若所述字符串中字符数量不大于所述最小切分阈值，则对该字符串不做切分，否则，从左到右将所述字符串按照正向最大匹配算法进行切分，针对切分过程中可能产生的多个切分方案，按照以下原则进行筛选：

1)切分后的字符串长度越长，优先级越高；

2)切分后的字符串个数越少，优先级越高。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于车载导航仪全文检索的多语言分词方法，其特征在于，包括以下步骤：

步骤4，利用正向最大匹配算法对所述多个字符串进行切分得到最终分词结果并输出。

2.根据权利要求1所述一种基于车载导航仪全文检索的多语言分词方法，其特征在于，所述步骤1包括：

3.根据权利要求1所述一种基于车载导航仪全文检索的多语言分词方法，其特征在于，步骤2中所述的对所述第一子文本做歧义判断进行二次切分，得到多个字符串，包括：

根据用户的选择信息确定分词方案并输出。

4.根据权利要求3所述一种基于车载导航仪全文检索的多语言分词方法，其特征在于，所述步骤3包括：

5.根据权利要求4所述一种基于车载导航仪全文检索的多语言分词方法，其特征在于，所述步骤4包括：

1)切分后的字符串长度越长，优先级越高；

2)切分后的字符串个数越少，优先级越高。

6.一种基于车载导航仪全文检索的多语言分词装置，其特征在于，包括：

7.根据权利要求6所述一种基于车载导航仪全文检索的多语言分词装置，其特征在于，所述预处理模块具体用于：

8.根据权利要求6所述一种基于车载导航仪全文检索的多语言分词装置，其特征在于，所述的对所述第一子文本做歧义判断进行二次切分，得到多个字符串，包括：

根据用户的选择信息确定分词方案。

9.根据权利要求8所述一种基于车载导航仪全文检索的多语言分词装置，其特征在于，所述语种切分模块具体用于：

10.根据权利要求9所述一种基于车载导航仪全文检索的多语言分词装置，其特征在于，所述分词结果生成模块具体用于：

设置最小切分阈值，若所述字符串中字符数量不大于所述最小切分阈值，则对该字符串不做切分，否则，从左到右将切分文本中的几个连续字符按照正向最大匹配算法进行切分，针对切分过程中可能产生的多个切分方案，按照以下原则进行筛选确认：

1)切分后的字符串长度越长，优先级越高；

2)切分后的字符串个数越少，优先级越高。