CN107992475A - 一种基于车载导航仪全文检索的多语言分词方法及装置 - Google Patents

一种基于车载导航仪全文检索的多语言分词方法及装置 Download PDF

Info

Publication number
CN107992475A
CN107992475A CN201711209343.9A CN201711209343A CN107992475A CN 107992475 A CN107992475 A CN 107992475A CN 201711209343 A CN201711209343 A CN 201711209343A CN 107992475 A CN107992475 A CN 107992475A
Authority
CN
China
Prior art keywords
ziwen
cutting
text
full
automatic navigator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711209343.9A
Other languages
English (en)
Inventor
罗跃军
姜子奇
周文昉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Zhonghai Data Technology Co Ltd
Original Assignee
Wuhan Zhonghai Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Zhonghai Data Technology Co Ltd filed Critical Wuhan Zhonghai Data Technology Co Ltd
Priority to CN201711209343.9A priority Critical patent/CN107992475A/zh
Publication of CN107992475A publication Critical patent/CN107992475A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于车载导航仪全文检索的多语言分词方法及装置,方法包括:根据标点符号对输入文本进行切分,得到一个或多个子文本;判断是否存在仅包含英文字母或数字的子文本,如果是则将所述仅包含英文字母或数字的子文本作为第一子文本并做歧义判断进行二次切分并输出,否则将除所述第一子文本外的其他子文本作为第二子文本;根据语言编码识别机制,将第二子文本切分,得到仅包含单一语种的多个字符串;利用正向最大匹配算法对所述多个字符串进行切分得到最终分词结果并输出。在车载导航仪上使用全文检索时,对用户输入的文本进行分词,不依赖外部词库,通过一套算法将用户输入的包含混合字符串的文本切分成可以用于全文检索的具体分词。

Description

一种基于车载导航仪全文检索的多语言分词方法及装置
技术领域
本发明涉及车载导航及文字检索技术领域,具体涉及一种基于车载导航仪全文检索的多语言分词方法及装置。
背景技术
随着检索技术发展以及输入法发展,传统车载导航系统基于NVC的逐字检索方案不管是从用户体验还是检索效率上,已经不能满足当下人们对导航产品的需求。而全文检索(Fulltextsearch)技术凭借其高效的检索效率,应用领域也是越来越广泛。因此在车载导航仪上使用全文检索技术也将成为一种趋势。
但在使用全文检索技术过程中,分词技术就是其核心技术之一。分词(Token),就是借助计算机自动给短句或长句文本切分成一个个分词,并使其能够正确的表达其原来的意思。只要是与语言理解相关的领域,都是需要用到分词技术的。
各个国家与地区的语言语法、书写习惯等因素的不一致,导致了它们需要用不同的分词方法。对于西方屈折语的文本单词与单词之间存在一个空格指示词的边界,根据空格和符号可以轻易分词;但对于那些孤立语和黏着语(如中文、韩语、藏语等)的文本,每个词之间没有任何标志指示词的边界,且如果以字为单位来切分文本,不但会带来巨大的空间消耗,更重要的是单个字检索结果比较庞大,这样会导致检索结果与用户原意不符。
对于现有全文检索技术中的分词器(Tokenizer),大多数只能支持单一语言,而且对于那些孤立语和黏着语(如中文、韩语、藏语等)的文本分词效果并不好。
发明内容
本发明针对现有技术中存在的技术问题,提供一种基于车载导航仪全文检索的多语言分词方法及装置,在车载导航仪上使用全文检索时,对用户输入的文本进行分词,不依赖外部词库,通过一套算法将用户输入的包含混合字符串的文本切分成可以用于全文检索的具体分词。
本发明解决上述技术问题的技术方案如下:
本发明一方面提供一种基于车载导航仪全文检索的多语言分词方法,包括以下步骤:。
步骤1,对输入文本进行初步处理,根据文本中的标点符号对输入文本进行切分,若无标点符号则不切分,得到一个或多个子文本;
步骤2,判断所述一个或多个子文本中是否存在仅包含英文字母或者仅包含英文字母和数字的子文本,如果是则将所述仅包含英文字母或者仅包含英文字母和数字的子文本作为第一子文本并对所述第一子文本做歧义判断进行二次切分并输出,否则将除所述第一子文本外的其他子文本作为第二子文本并执行步骤3;
步骤3,根据语言编码识别机制,将所述第二子文本切分,得到仅包含单一语种的多个字符串;
步骤4,利用正向最大匹配算法对所述多个字符串中的亚洲字符串进行切分,得到最终分词结果并输出。
进一步,所述步骤1包括:
根据UNICODE编码规则,检索输入文本中的标点符号以及空格符号,并将所述标点符号和空格符号构造成分隔符,将所述输入文本分割成多个子文本,若输入文本中不存在标点符号以及空格符号则将所述输入文本作为一个独立的子文本。
进一步,步骤2中所述的对所述第一子文本做歧义判断进行二次切分,得到多个字符串,包括:
获取车载导航仪收录的检索数据的言语种别,并分析所述言语种别中是否含有西方屈折语种别或汉语拼音;
若车载导航仪支持西方屈折语检索,则对所述第一子文本不在进一步分词;若车载导航仪支持汉语拼音检索,则根据汉语拼音规则对所述第一子文本进行分词;将基于西方屈折语检索的分词结果与基于汉语拼音规则的分析结果组合成分词结果集并展示给用户;
根据用户的选择信息确定分词方案并输出。
进一步,所述步骤3包括:
通过语言编码识别机制识别第二子文本中所包含的语种信息,根据所述语种信息,将所述第二子文本切分成多个连续的仅包含单一语种的字符串。
进一步,所述步骤4包括:
设置最小切分阈值,若所述字符串中字符数量不大于所述最小切分阈值,则对该字符串不做切分,否则,从左到右将切分文本中的几个连续字符按照正向最大匹配算法进行切分,针对切分过程中可能产生的多个切分方案,按照以下原则进行筛选确认并输出:
1)切分后的字符串长度越长,优先级越高;
2)切分后的字符串个数越少,优先级越高。
本发明的有益效果是:在车载导航仪上使用全文检索时,对用户输入的文本进行分词,不依赖外部词库,通过一套算法将用户输入的包含混合字符串的文本切分成可以用于全文检索的具体分词,有效避免了由于各个国家与地区的语言语法、书写习惯等因素的不一致,而导致它们需要用不同的分词方法的问题。
本发明另一方面提供一种基于车载导航仪全文检索的多语言分词装置,包括:
预处理模块,用于对输入文本进行初步处理,根据文本中的标点符号对输入文本进行切分,若无标点符号则不切分,得到一个或多个子文本;
歧义判断模块,用于判断所述一个或多个子文本中是否存在仅包含英文字母或者仅包含英文字母和数字的子文本,如果是则将所述仅包含英文字母或者仅包含英文字母和数字的子文本作为第一子文本并对所述第一子文本做歧义判断进行二次切分;
语种切分模块,用于根据语言编码识别机制,将所述第二子文本切分,得到仅包含单一语种的多个字符串;
分词结果生成模块,用于利用正向最大匹配算法对所述多个字符串中的亚洲字符串进行切分,得到最终分词结果。
进一步,所述预处理模块具体用于:
根据UNICODE编码规则,检索输入文本中的标点符号以及空格符号,并将所述标点符号和空格符号构造成分隔符,将所述输入文本分割成多个子文本,若输入文本中不存在标点符号以及空格符号则将所述输入文本作为一个独立的子文本。
进一步,所述的对所述第一子文本做歧义判断进行二次切分,得到多个字符串,包括:
获取车载导航仪收录的检索数据的言语种别,并分析所述言语种别中是否含有西方屈折语种别或汉语拼音;
若车载导航仪支持西方屈折语检索,则对所述第一子文本不在进一步分词;若车载导航仪支持汉语拼音检索,则根据汉语拼音规则对所述第一子文本进行分词;将基于西方屈折语检索的分词结果与基于汉语拼音规则的分析结果组合成分词结果集并展示给用户;
根据用户的选择信息确定分词方案。
进一步,所述语种切分模块具体用于:
通过语言编码识别机制识别第二子文本中所包含的语种信息,根据所述语种信息,将所述第二子文本切分成多个连续的仅包含单一语种的字符串。
进一步,所述分词结果生成模块具体用于:
设置最小切分阈值,若所述字符串中字符数量不大于所述最小切分阈值,则对该字符串不做切分,否则,从左到右将切分文本中的几个连续字符按照正向最大匹配算法进行切分,针对切分过程中可能产生的多个切分方案,按照以下原则进行筛选:
1)切分后的字符串长度越长,优先级越高;
2)切分后的字符串个数越少,优先级越高。
本发明的有益效果是:在车载导航仪上使用全文检索时,对用户输入的文本进行分词,不依赖外部词库,通过一套算法将用户输入的包含混合字符串的文本切分成可以用于全文检索的具体分词,有效避免了由于各个国家与地区的语言语法、书写习惯等因素的不一致,而导致它们需要用不同的分词方法的问题。
附图说明
图1为本发明实施例提供的一种基于车载导航仪全文检索的多语言分词方法流程图;
图2为本发明实施例提供的一种基于车载导航仪全文检索的多语言分词装置结构示意图。
具体实施方式
以下结合实例对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
本发明需要满足以下条件:
a)导航仪检索功能支持全文检索;
b)用于全文检索的分词器(Tokenizer),支持按空格切分字符串;
c)导航仪检索数据中亚洲语系字符串已经做了较为准确的分词处理;
d)导航仪检索数据中亚洲语系字符串分词方式不能为二元分词。
图1为本发明实施例提供的一种基于车载导航仪全文检索的多语言分词方法流程图,如图1所示,包括以下步骤:。
步骤1,根据UNICODE编码规则,检索输入文本中的标点符号以及空格符号,并将所述标点符号和空格符号构造成分隔符,将所述输入文本分割成多个子文本,若输入文本中不存在标点符号以及空格符号则将所述输入文本作为一个独立的子文本。
例如:用户输入字符串“中国农业银行(江夏支行)”通过步骤1,切分成“中国农业银行”|“江夏支行”。
步骤2,判断所述一个或多个子文本中是否存在仅包含英文字母或者仅包含英文字母和数字的子文本,如果是则将所述仅包含英文字母或者仅包含英文字母和数字的子文本作为第一子文本并对所述第一子文本做歧义判断:
获取车载导航仪收录的检索数据的言语种别,并分析所述言语种别中是否含有西方屈折语种别或汉语拼音;
若车载导航仪支持西方屈折语检索,则对所述第一子文本不在进一步分词;若车载导航仪支持汉语拼音检索,则根据汉语拼音规则对所述第一子文本进行分词;将基于西方屈折语检索的分词结果与基于汉语拼音规则的分析结果组合成分词结果集并展示给用户;
根据用户的选择信息确定分词方案并输出。
否则将除所述第一子文本外的其他子文本作为第二子文本并执行步骤3。
例如:导航仪支持拼音检索、英文检索,当用户输入字符串“change”,通过步骤1,得到“change”;
通过步骤2,可以获得三个分词结果:
结果一:通过西方屈折语检索,分词结果为“change”;
结果二:通过汉语拼音检索,分词结果为“chang”|“e”;
结果三:通过汉语拼音检索,分词结果为“chan”|“ge”;
假如“change”、“change”可以检索到信息,则需要展示给用户,让用户选择检索汉语拼音:“change”还是检索字符串“change”;
假如“change”检索不到任何信息,则不需要向用户展示。
步骤3,通过语言编码识别机制识别第二子文本中所包含的语种信息,根据所述语种信息,将所述第二子文本切分成多个连续的仅包含单一语种的字符串(包括数字、字母、中文,日文等等以及连续的无法识别的特殊字符)。
例如:用户输入字符串“东风标致4008自动挡汽车”通过步骤1没有切分“东风标致4008自动挡汽车”,通过步骤4,被切分成“东风标致”|“4008”|“自动挡汽车”。
步骤4,利用正向最大匹配算法对所述多个字符串进行切分得到最终分词结果。
设置最小切分阈值n,若所述字符串中字符数量不大于所述最小切分阈值,则对该字符串不做切分,比如中文设置n为3,小于等于3个字的中文切分文本不再继续切分。
否则,从左到右将所述字符串按照正向最大匹配算法进行切分,针对切分过程中可能产生的多个切分方案,按照以下原则进行筛选确认并输出:
1)切分后的字符串长度越长,优先级越高;
2)切分后的字符串个数越少,优先级越高。
例如:用户输入字符串“东风标致4008自动挡汽车”,通过步骤5进一步分词被切分成:
“东风”|“标致”|“4008”|“自动挡”|“汽车”。
本发明另一方面提供一种基于车载导航仪全文检索的多语言分词装置,如图2所示,包括:
预处理模块,用于对输入文本进行初步处理,根据文本中的标点符号对输入文本进行切分,若无标点符号则不切分,得到一个或多个子文本;
歧义判断模块,用于判断所述一个或多个子文本中是否存在仅包含英文字母或者仅包含英文字母和数字的子文本,如果是则将所述仅包含英文字母或者仅包含英文字母和数字的子文本作为第一子文本并对所述第一子文本做歧义判断进行二次切分;
语种切分模块,用于根据语言编码识别机制,将所述第二子文本切分,得到仅包含单一语种的多个字符串;
分词结果生成模块,用于利用正向最大匹配算法对所述多个字符串进行切分得到最终分词结果。
进一步,所述预处理模块具体用于:
根据UNICODE编码规则,检索输入文本中的标点符号以及空格符号,并将所述标点符号和空格符号构造成分隔符,将所述输入文本分割成多个子文本,若输入文本中不存在标点符号以及空格符号则将所述输入文本作为一个独立的子文本。
进一步,所述的对所述第一子文本做歧义判断进行二次切分,得到多个字符串,包括:
获取车载导航仪收录的检索数据的言语种别,并分析所述言语种别中是否含有西方屈折语种别或汉语拼音;
若车载导航仪支持西方屈折语检索,则对所述第一子文本不在进一步分词;若车载导航仪支持汉语拼音检索,则根据汉语拼音规则对所述第一子文本进行分词;将基于西方屈折语检索的分词结果与基于汉语拼音规则的分析结果组合成分词结果集并展示给用户;
根据用户的选择信息确定分词方案。
进一步,所述语种切分模块具体用于:
通过语言编码识别机制识别第二子文本中所包含的语种信息,根据所述语种信息,将所述第二子文本切分成多个连续的仅包含单一语种的字符串。
进一步,所述分词结果生成模块具体用于:
设置最小切分阈值,若所述字符串中字符数量不大于所述最小切分阈值,则对该字符串不做切分,否则,从左到右将所述字符串按照正向最大匹配算法进行切分,针对切分过程中可能产生的多个切分方案,按照以下原则进行筛选:
1)切分后的字符串长度越长,优先级越高;
2)切分后的字符串个数越少,优先级越高。
本发明的有益效果是:在车载导航仪上使用全文检索时,对用户输入的文本进行分词,不依赖外部词库,通过一套算法将用户输入的包含混合字符串的文本切分成可以用于全文检索的具体分词,有效避免了由于各个国家与地区的语言语法、书写习惯等因素的不一致,而导致它们需要用不同的分词方法的问题。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于车载导航仪全文检索的多语言分词方法,其特征在于,包括以下步骤:
步骤1,对输入文本进行初步处理,根据文本中的标点符号对输入文本进行切分,若无标点符号则不切分,得到一个或多个子文本;
步骤2,判断所述一个或多个子文本中是否存在仅包含英文字母或者仅包含英文字母和数字的子文本,如果是则将所述仅包含英文字母或者仅包含英文字母和数字的子文本作为第一子文本并对所述第一子文本做歧义判断进行二次切分并输出,否则将除所述第一子文本外的其他子文本作为第二子文本并执行步骤3;
步骤3,根据语言编码识别机制,将所述第二子文本切分,得到仅包含单一语种的多个字符串;
步骤4,利用正向最大匹配算法对所述多个字符串进行切分得到最终分词结果并输出。
2.根据权利要求1所述一种基于车载导航仪全文检索的多语言分词方法,其特征在于,所述步骤1包括:
根据UNICODE编码规则,检索输入文本中的标点符号以及空格符号,并将所述标点符号和空格符号构造成分隔符,将所述输入文本分割成多个子文本,若输入文本中不存在标点符号以及空格符号则将所述输入文本作为一个独立的子文本。
3.根据权利要求1所述一种基于车载导航仪全文检索的多语言分词方法,其特征在于,步骤2中所述的对所述第一子文本做歧义判断进行二次切分,得到多个字符串,包括:
获取车载导航仪收录的检索数据的言语种别,并分析所述言语种别中是否含有西方屈折语种别或汉语拼音;
若车载导航仪支持西方屈折语检索,则对所述第一子文本不在进一步分词;若车载导航仪支持汉语拼音检索,则根据汉语拼音规则对所述第一子文本进行分词;将基于西方屈折语检索的分词结果与基于汉语拼音规则的分析结果组合成分词结果集并展示给用户;
根据用户的选择信息确定分词方案并输出。
4.根据权利要求3所述一种基于车载导航仪全文检索的多语言分词方法,其特征在于,所述步骤3包括:
通过语言编码识别机制识别第二子文本中所包含的语种信息,根据所述语种信息,将所述第二子文本切分成多个连续的仅包含单一语种的字符串。
5.根据权利要求4所述一种基于车载导航仪全文检索的多语言分词方法,其特征在于,所述步骤4包括:
设置最小切分阈值,若所述字符串中字符数量不大于所述最小切分阈值,则对该字符串不做切分,否则,从左到右将切分文本中的几个连续字符按照正向最大匹配算法进行切分,针对切分过程中可能产生的多个切分方案,按照以下原则进行筛选确认并输出:
1)切分后的字符串长度越长,优先级越高;
2)切分后的字符串个数越少,优先级越高。
6.一种基于车载导航仪全文检索的多语言分词装置,其特征在于,包括:
预处理模块,用于对输入文本进行初步处理,根据文本中的标点符号对输入文本进行切分,若无标点符号则不切分,得到一个或多个子文本;
歧义判断模块,用于判断所述一个或多个子文本中是否存在仅包含英文字母或者仅包含英文字母和数字的子文本,如果是则将所述仅包含英文字母或者仅包含英文字母和数字的子文本作为第一子文本并对所述第一子文本做歧义判断进行二次切分;
语种切分模块,用于根据语言编码识别机制,将所述第二子文本切分,得到仅包含单一语种的多个字符串;
分词结果生成模块,用于利用正向最大匹配算法对所述多个字符串进行切分得到最终分词结果。
7.根据权利要求6所述一种基于车载导航仪全文检索的多语言分词装置,其特征在于,所述预处理模块具体用于:
根据UNICODE编码规则,检索输入文本中的标点符号以及空格符号,并将所述标点符号和空格符号构造成分隔符,将所述输入文本分割成多个子文本,若输入文本中不存在标点符号以及空格符号则将所述输入文本作为一个独立的子文本。
8.根据权利要求6所述一种基于车载导航仪全文检索的多语言分词装置,其特征在于,所述的对所述第一子文本做歧义判断进行二次切分,得到多个字符串,包括:
获取车载导航仪收录的检索数据的言语种别,并分析所述言语种别中是否含有西方屈折语种别或汉语拼音;
若车载导航仪支持西方屈折语检索,则对所述第一子文本不在进一步分词;若车载导航仪支持汉语拼音检索,则根据汉语拼音规则对所述第一子文本进行分词;将基于西方屈折语检索的分词结果与基于汉语拼音规则的分析结果组合成分词结果集并展示给用户;
根据用户的选择信息确定分词方案。
9.根据权利要求8所述一种基于车载导航仪全文检索的多语言分词装置,其特征在于,所述语种切分模块具体用于:
通过语言编码识别机制识别第二子文本中所包含的语种信息,根据所述语种信息,将所述第二子文本切分成多个连续的仅包含单一语种的字符串。
10.根据权利要求9所述一种基于车载导航仪全文检索的多语言分词装置,其特征在于,所述分词结果生成模块具体用于:
设置最小切分阈值,若所述字符串中字符数量不大于所述最小切分阈值,则对该字符串不做切分,否则,从左到右将切分文本中的几个连续字符按照正向最大匹配算法进行切分,针对切分过程中可能产生的多个切分方案,按照以下原则进行筛选确认:
1)切分后的字符串长度越长,优先级越高;
2)切分后的字符串个数越少,优先级越高。
CN201711209343.9A 2017-11-27 2017-11-27 一种基于车载导航仪全文检索的多语言分词方法及装置 Pending CN107992475A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711209343.9A CN107992475A (zh) 2017-11-27 2017-11-27 一种基于车载导航仪全文检索的多语言分词方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711209343.9A CN107992475A (zh) 2017-11-27 2017-11-27 一种基于车载导航仪全文检索的多语言分词方法及装置

Publications (1)

Publication Number Publication Date
CN107992475A true CN107992475A (zh) 2018-05-04

Family

ID=62032221

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711209343.9A Pending CN107992475A (zh) 2017-11-27 2017-11-27 一种基于车载导航仪全文检索的多语言分词方法及装置

Country Status (1)

Country Link
CN (1) CN107992475A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829167A (zh) * 2019-02-22 2019-05-31 维沃移动通信有限公司 一种分词处理方法和移动终端
CN110413972A (zh) * 2019-07-23 2019-11-05 杭州城市大数据运营有限公司 一种基于nlp技术的表名字段名智能补全方法
CN110908998A (zh) * 2019-11-13 2020-03-24 广联达科技股份有限公司 数据存储和搜索方法、系统和计算机可读存储介质
CN111079411A (zh) * 2019-12-12 2020-04-28 拉扎斯网络科技(上海)有限公司 一种文本处理的方法、装置、可读存储介质和电子设备
CN111310452A (zh) * 2018-12-12 2020-06-19 北京京东尚科信息技术有限公司 一种分词方法和装置
CN112861513A (zh) * 2021-02-05 2021-05-28 北京百度网讯科技有限公司 文本切分方法、装置、电子设备和存储介质
CN113988068A (zh) * 2021-12-29 2022-01-28 深圳前海硬之城信息技术有限公司 Bom文本的分词方法、装置、设备及存储介质
US11966699B2 (en) 2021-06-17 2024-04-23 International Business Machines Corporation Intent classification using non-correlated features

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101943952A (zh) * 2010-01-27 2011-01-12 北京搜狗科技发展有限公司 一种至少两种语言混合输入的方法和输入法系统
CN103092838A (zh) * 2011-10-28 2013-05-08 腾讯科技(深圳)有限公司 一种获取英文词的方法及装置
WO2015087075A1 (en) * 2013-12-11 2015-06-18 Touchtype Limited System and method for inputting text into electronic devices
CN105243055A (zh) * 2015-09-28 2016-01-13 北京橙鑫数据科技有限公司 基于多语言的分词方法和装置
CN106528536A (zh) * 2016-11-14 2017-03-22 北京赛思信安技术股份有限公司 一种基于词典与文法分析的多语种分词方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101943952A (zh) * 2010-01-27 2011-01-12 北京搜狗科技发展有限公司 一种至少两种语言混合输入的方法和输入法系统
CN103092838A (zh) * 2011-10-28 2013-05-08 腾讯科技(深圳)有限公司 一种获取英文词的方法及装置
WO2015087075A1 (en) * 2013-12-11 2015-06-18 Touchtype Limited System and method for inputting text into electronic devices
CN105243055A (zh) * 2015-09-28 2016-01-13 北京橙鑫数据科技有限公司 基于多语言的分词方法和装置
CN106528536A (zh) * 2016-11-14 2017-03-22 北京赛思信安技术股份有限公司 一种基于词典与文法分析的多语种分词方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
肖明 等: "《十二五高等学校信息管理与信息系统专业规划教材:信息计量学(铁道版)》", 31 August 2014, 中国铁道出版社 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111310452A (zh) * 2018-12-12 2020-06-19 北京京东尚科信息技术有限公司 一种分词方法和装置
CN111310452B (zh) * 2018-12-12 2024-06-18 北京汇钧科技有限公司 一种分词方法和装置
CN109829167A (zh) * 2019-02-22 2019-05-31 维沃移动通信有限公司 一种分词处理方法和移动终端
CN109829167B (zh) * 2019-02-22 2023-11-21 维沃移动通信有限公司 一种分词处理方法和移动终端
CN110413972B (zh) * 2019-07-23 2022-11-25 杭州城市大数据运营有限公司 一种基于nlp技术的表名字段名智能补全方法
CN110413972A (zh) * 2019-07-23 2019-11-05 杭州城市大数据运营有限公司 一种基于nlp技术的表名字段名智能补全方法
CN110908998A (zh) * 2019-11-13 2020-03-24 广联达科技股份有限公司 数据存储和搜索方法、系统和计算机可读存储介质
CN111079411A (zh) * 2019-12-12 2020-04-28 拉扎斯网络科技(上海)有限公司 一种文本处理的方法、装置、可读存储介质和电子设备
CN111079411B (zh) * 2019-12-12 2023-10-13 拉扎斯网络科技(上海)有限公司 一种文本处理的方法、装置、可读存储介质和电子设备
CN112861513B (zh) * 2021-02-05 2024-02-06 北京百度网讯科技有限公司 文本切分方法、装置、电子设备和存储介质
CN112861513A (zh) * 2021-02-05 2021-05-28 北京百度网讯科技有限公司 文本切分方法、装置、电子设备和存储介质
US11966699B2 (en) 2021-06-17 2024-04-23 International Business Machines Corporation Intent classification using non-correlated features
CN113988068A (zh) * 2021-12-29 2022-01-28 深圳前海硬之城信息技术有限公司 Bom文本的分词方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN107992475A (zh) 一种基于车载导航仪全文检索的多语言分词方法及装置
CN1143232C (zh) 正文的自动分割
KR101650112B1 (ko) 음역을 위한 기계 학습
US7478033B2 (en) Systems and methods for translating Chinese pinyin to Chinese characters
KR20120006489A (ko) 입력 방법 편집기
CN103678684A (zh) 一种基于导航信息检索的中文分词方法
CN105243056B (zh) 一种基于标点符号处理的汉语句法分析方法及装置
CN105095196B (zh) 文本中新词发现的方法和装置
CN111178061B (zh) 一种基于编码转换的多国语分词方法
CN101876975A (zh) 汉语地名的识别方法
US8880391B2 (en) Natural language processing apparatus, natural language processing method, natural language processing program, and computer-readable recording medium storing natural language processing program
CN103034625A (zh) 侦测及校正中文错字的系统及方法
CN103744837B (zh) 基于关键词抽取的多文本对照方法
EP1471440A2 (en) System and method for word analysis
Chen et al. Integrating natural language processing with image document analysis: what we learned from two real-world applications
Tarmom et al. Compression versus traditional machine learning classifiers to detect code-switching in varieties and dialects: Arabic as a case study
CN113255329A (zh) 英文文本拼写纠错方法、装置、存储介质及电子设备
CN115983266A (zh) 用于银行征信数据审核的拼音变体文本识别方法及系统
Mechti et al. An empirical method using features combination for Arabic native language identification
KR20220113075A (ko) 한국어 명사 추출 토크나이저 기반의 워드클라우드 시스템
JP3952964B2 (ja) 読み情報決定方法及び装置及びプログラム
CN107451122B (zh) 一种基于Lucene的动态n元分词方法
Flanagan et al. Automatic extraction and prediction of word order errors from language learning SNS
CN113033188B (zh) 一种基于神经网络的藏文语法纠错方法
Rajendran et al. Text processing for developing unrestricted Tamil text to speech synthesis system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180504