CN111079421B - 一种文本信息分词处理的方法、装置、终端及存储介质 - Google Patents

一种文本信息分词处理的方法、装置、终端及存储介质 Download PDF

Info

Publication number
CN111079421B
CN111079421B CN201911168682.6A CN201911168682A CN111079421B CN 111079421 B CN111079421 B CN 111079421B CN 201911168682 A CN201911168682 A CN 201911168682A CN 111079421 B CN111079421 B CN 111079421B
Authority
CN
China
Prior art keywords
word segmentation
rule
condition
segmentation rule
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911168682.6A
Other languages
English (en)
Other versions
CN111079421A (zh
Inventor
王铄
史亮
陈宇鹏
过群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Intelligent Technology Co Ltd
Original Assignee
Beijing Xiaomi Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Intelligent Technology Co Ltd filed Critical Beijing Xiaomi Intelligent Technology Co Ltd
Priority to CN201911168682.6A priority Critical patent/CN111079421B/zh
Publication of CN111079421A publication Critical patent/CN111079421A/zh
Priority to US16/872,793 priority patent/US11373038B2/en
Priority to EP20176513.8A priority patent/EP3825894A1/en
Application granted granted Critical
Publication of CN111079421B publication Critical patent/CN111079421B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开是关于一种文本信息分词处理的方法、装置、终端及存储介质,所述方法包括:获取文本信息以及配置信息,其中,所述配置信息包括至少两条第一分词规则;按照预定规则,将所述第一分词规则转换成第二分词规则;当利用任意两条所述第二分词规则匹配到的文本信息的字符串存在交集时,确定存在交集的任意两条所述第二分词规则对应的两条所述第一分词规则存在冲突;按照所述配置信息处理所述文本信息,输出所述文本信息的分词结果。由于通过了将所述第一分词规则转换成第二分词规则,使得第二分词规则可以成为一个确定性的规则,从而可以通过这些确定的分词规则,快速和准确地排查出配置信息中存在冲突的分词规则。

Description

一种文本信息分词处理的方法、装置、终端及存储介质
技术领域
本公开涉及计算机技术领域,尤其涉及文本信息分词处理的方法、装置、终端及存储介质。
背景技术
在文本信息中,针对分词的配置信息中有时会出现利用所述配置信息中的一些分词规则与另一些分词规则之间存在冲突的现象。也就是说,利用两条互相冲突的分词规则对文本信息中的同一输入语句所得到的最终的分词结果却不相同。相关技术中,无法准确地排查出这些发生冲突的分词规则,导致在使用上述配置信息执行分词时,出现分词不准确等问题。
发明内容
根据本公开实施例的第一方面,提供一种文本信息分词处理的方法,包括:
获取文本信息以及配置信息,其中,所述配置信息包括至少两条第一分词规则;
按照预定规则,将所述第一分词规则转换成第二分词规则;
当利用任意两条所述第二分词规则匹配到的文本信息的字符串存在交集时,确定存在交集的任意两条所述第二分词规则对应的两条所述第一分词规则存在冲突;
按照所述配置信息处理所述文本信息,输出所述文本信息的分词结果。
可选地,第一集合包含所述至少两个第一分词规则所包含的替换条件;所述替换条件为将原词替换成目标词的条件;
所述将所述第一分词规则转换成第二分词规则,包括:
若所述第一分词规则包含的第一条件为开放式条件,则根据所述第一集合得到第二集合,其中,所述第二集合包含的第二条件为:所述第一集合中除所述第一条件以外的所述替换条件;所述替换条件为:将原词替换成目标词的条件;
基于所述第二条件与所述第一分词规则所包含的原词和目标词,构成所述第二分词规则。
可选地,所述若所述第一分词规则包含的第一条件为开放式条件,则根据所述第一集合得到第二集合,包括:
若所述第一分词规则包含的所述第一条件为所述开放式条件,则基于所述配置信息中包含有封闭式条件的所述第一分词规则中所述封闭式条件所限定的词条,确定所述第二集合包含的所述第二条件;根据所述第二集合包含的所述第二条件,得到所述第二集合。
可选地,所述开放式条件包括:含有否定含义的否定字段;
所述含有否定含义的否定字段包括以下至少之一:
位于所述第一分词规则中待匹配的原词之前的第一类否定字段;
位于所述第一分词规则中待匹配的原词之后的第二类否定字段;
所述封闭式条件包括:含有肯定含义的肯定字段;
所述若所述第一分词规则含有开放式条件,则基于所述配置信息中包含有封闭式条件的所述第一分词规则中所述封闭式条件所限定的词条,确定所述第二集合包含的所述第二条件,包括以下至少之一:
若所述第一分词规则包含有所述第一类否定字段,则基于所述配置信息中包含有第一类肯定字段的所述第一分词规则的所述第一类肯定字段所连接的词条,确定所述第二集合包含的所述第二条件;其中,所述第一类否定字段和所述第一类肯定字段,互为在所述第一分词规则中位置相同但不同含义的字段;
若所述第一分词规则包含有所述第二类否定字段,则基于所述配置信息中包含有第二类肯定字段的所述第一分词规则的所述第二类肯定字段所连接的词条,确定所述第二集合包含的所述第二条件;其中,所述第二类否定字段和所述第二类肯定字段,互为在所述第一分词规则中位置相同但不同含义的字段;且所述第二类否定字段与所述第一类否定字段在所述第一分词规则中位置不同。
可选地,所述方法还包括:
若所述第一分词规则包含的所述第一条件为封闭式条件,则确定所述第一分词规则自身为所述第二分词规则。
可选地,所述当利用任意两条所述第二分词规则匹配到的字符串存在交集时,确定存在交集的任意两条所述第二分词规则对应的两条所述第一分词规则存在冲突,包括:
将每一条所述第二分词规则转换成规则集合;
根据所述规则集合,确定每一条所述第二分词规则所匹配的字符串;
当任意两条所述第二分词规则所匹配的字符串存在交集时,确定存在交集的任意两条所述第二分词规则对应的两条所述第一分词规则存在冲突。
可选地,所述将每一条所述第二分词规则转换成规则集合,包括:
将每一条所述第二分词规则转换成正则表达式;
将所述正则表达式转换成自动机的自动机语言集合。
根据本公开实施例的第二方面,提供一种文本信息分词处理的装置,包括:
获取模块,被配置为获取文本信息以及配置信息,其中,所述配置信息包括至少两条第一分词规则;
转换模块,被配置为按照预定规则,将所述第一分词规则转换成第二分词规则;
第一确定模块,被配置为当利用任意两条所述第二分词规则匹配到的文本信息的字符串存在交集时,确定存在交集的任意两条所述第二分词规则对应的两条所述第一分词规则存在冲突;
输出模块,被配置为按照所述配置信息处理所述文本信息,输出所述文本信息的分词结果。
可选地,第一集合包含所述至少两个第一分词规则所包含的替换条件;所述替换条件为:将原词替换成目标词的条件;
所述转换模块,还被配置为:
若所述第一分词规则包含的第一条件为开放式条件,则根据所述第一集合得到第二集合,其中,所述第二集合包含的第二条件为:所述第一集合中除所述第一条件以外的替换条件;
基于所述第二条件与所述第一分词规则所包含的原词和目标词,构成所述第二分词规则。
可选地,所述转换模块,还包括:
第一确定子模块,被配置为:
若所述第一分词规则包含的所述第一条件为所述开放式条件,则基于所述配置信息中包含有封闭式条件的所述第一分词规则中所述封闭式条件所限定的词条,确定所述第二集合包含的所述第二条件;根据所述第二集合包含的所述第二条件,得到所述第二集合。
可选地,所述开放式条件包括:含有否定含义的否定字段;
所述否定含义的否定字段包括以下至少之一:
位于所述第一分词规则中待匹配的原词之前的第一类否定字段;
位于所述第一分词规则中待匹配的原词之后的第二类否定字段;
所述封闭式条件包括:含有肯定含义的肯定字段;
所述第一确定子模块,还被配置为以下至少之一:
若所述第一分词规则包含有所述第一类否定字段,则基于所述配置信息中包含有第一类肯定字段的所述第一分词规则的所述第一类肯定字段所连接的词条,确定所述第二集合包含的所述第二条件;其中,所述第一类否定字段和所述第一类肯定字段,互为在所述第一分词规则中位置相同但不同含义的字段;
若所述第一分词规则包含有所述第二类否定字段,则基于所述配置信息中包含有第二类肯定字段的所述第一分词规则的所述第二类肯定字段所连接的词条,确定所述第二集合包含的所述第二条件;其中,所述第二类否定字段和所述第二类肯定字段,互为在所述第一分词规则中位置相同但不同含义的字段;且所述第二类否定字段与所述第一类否定字段在所述第一分词规则中位置不同。
可选地,所述装置还包括:
第二确定模块,还被配置为:
若所述第一分词规则包含的所述第一条件为封闭式条件,则确定所述第一分词规则自身为所述第二分词规则。
可选地,所述第一确定模块,还包括:
转换子模块,被配置为将每一条所述第二分词规则转换成规则集合;
第二确定子模块,被配置为根据所述规则集合,确定每一条所述第二分词规则所匹配的字符串;
第三确定子模块,被配置为当任意两条所述第二分词规则所匹配的字符串存在交集时,确定存在交集的任意两条所述第二分词规则对应的两条所述第一分词规则存在冲突。
可选地,所述转换子模块,还被配置为:
将每一条所述第二分词规则转换成正则表达式;将所述正则表达式转换成自动机的自动机语言集合。
根据本公开实施例的第三方面,提供一种终端,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取文本信息以及配置信息,其中,所述配置信息包括至少两条第一分词规则;
按照预定规则,将所述第一分词规则转换成第二分词规则;
当利用任意两条所述第二分词规则匹配到的文本信息的字符串存在交集时,确定存在交集的任意两条所述第二分词规则对应的两条所述第一分词规则存在冲突;
按照所述配置信息处理所述文本信息,输出所述文本信息的分词结果。
根据本公开实施例的第四方面,提供一种非临时性计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行实现上述任意所述的方法步骤。
本公开的实施例提供的技术方案可以包括以下有益效果:
本公开的实施例中,通过获取文本信息以及配置信息,其中,所述配置信息包括至少两条第一分词规则;按照预定规则,将所述第一分词规则转换成第二分词规则;当利用任意两条所述第二分词规则匹配到的文本信息的字符串存在交集时,确定存在交集的任意两条所述第二分词规则对应的两条所述第一分词规则存在冲突;按照所述配置信息处理所述文本信息,输出所述文本信息的分词结果。由于本公开的实施例中,会将配置信息中的第一分词规则转换成第二分词规则,也就是说,通过转换,可以让原本包含不确定性情况的第一分词规则变为一个包含确定性情况的第二分词规则,再通过这一包含确定性情况的第二分词规则来确定所匹配的字符串交集,从而确定对应的第一分词规则之间是否存在冲突。因此,本实施例可以快速排查出所述配置信息中包含存在冲突的所述第一分词规则,且,正是基于对确定性的分词规则进行的排查,因此排查出的结果也更加准确。
进一步地,正是由于本实施例的技术方案能够将所述配置信息中存在冲突的所述第一分词规则排查出来,进而可以让开发人员对排查出的存在冲突的所述第一分词规则进行修改,减少配置信息中发生冲突的所述第一分词规则,使得基于所有第一分词规则所得到的分词结果更准确,从而最终使得基于所述配置信息进行文本信息分词处理更具可靠性和稳定性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种文本信息分词处理的方法的流程图;
图2是相关技术中的文本信息分词处理所输出的树形图;
图3是根据一示例性实施例示出的一种文本信息分词处理的方法的场景示意图;
图4是根据一示例性实施例示出的一种文本信息分词处理的装置的框图;
图5是根据一示例性实施例示出的一种终端的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种文本信息分词处理的方法的流程图,如图1所示,所述方法包括以下步骤:
步骤101:获取文本信息以及配置信息,其中,所述配置信息包括至少两条第一分词规则。
该方法可以应用于终端。所述终端具体可以为移动终端、固定终端;其中,移动终端可以为手机、平板电脑、笔记本电脑等;固定终端可以为台式电脑。
所述配置信息可以安装于执行终端的软件中,或者被测终端所安装的软件中。所述软件可以用于对输入的文本信息进行分词处理。例如,所述软件可以是阅读类软件,通过所述配置信息可以对输入的文本信息进行分词,根据分词的词义进行朗读,提高用户体验。所述软件还可以是搜索类软件,根据所述配置信息中所包含分词规则的执行,可以对输入搜索词句进行分词,并根据分词的词义进行搜索,提高搜索效率。
当所述配置信息安装于执行终端时,所述方法可以由执行终端通过获取执行终端上的软件的配置信息执行所述方法。所述步骤101,可以包括:执行终端获取自身存储的配置信息。
当所述方法应用于执行终端,且所述配置信息安装于被测终端时,所述步骤101,可以是所述执行终端从所述被测终端上获取所述被测终端的配置信息。这里,所述被测终端与所述执行终端为不同的终端。
这里,所述配置信息可以是用于对输入的文本信息进行分词的相关规则的代码集合。所述输入的文本信息为:“客房费用处”,根据所述配置信息,可以将所述输入的文本信息,进行分词,以得到“客房费/用处”。
步骤102:按照预定规则,将所述第一分词规则转换成第二分词规则。
可以理解的是,所述配置信息中一条分词规则限定了以下内容:原词、目标词和替换条件。所述替换条件可以包括封闭式条件,还可以包括开放式条件。
可以理解的是,若分词规则中包括所述开放式条件,则表明所述分词规则是一种不确定的规则。相应地,若分词规则中包括所述封闭式条件,则表明所述分词规则是一种确定的规则。
例如,所述封闭式条件可以是一种肯定的条件,如当原词前出现某个字时,可以将原词替换成所述目标词,否则不予替换,显然这个条件存在的情况只有一种,就是原词前出现某个字这种情况,因此这种条件所限制的规则是一种确定性的规则。
所述开放式条件可以是一种否定的条件,如当原词前不出现某个字时,可以将原词替换成所述目标词,显然,所述原词前不出现某个字的情况不止一个,因此,这种条件所限定的规则是一种不确定的规则。
也就是说,根据所述替换条件的不同,可以将分词规则划分为确定性的分词规则和不确定性的分词规则。具体地,若所述替换条件为开放式条件,则所述替换条件对应的分词规则为不确定性的规则;若所述替换条件为封闭式条件,则所述替换条件对应的分词规则为确定性的规则。
在一些实施例中,所述预定规则包括:预先设定的将所述第一分词规则转换成第二分词规则的规则。这里,所述将所述第一分词规则转换成第二分词规则的规则,可以包括:利用替换条件的转换将所述第一分词规则转换成所述第二分词规则的一系列规则。
其中,所述利用替换条件的转换将所述第一分词规则转换成所述第二分词规则的规则,例如可以是,将第一分词规则中包含的不确定性的替换条件,转换成确定性的替换条件,以构成所述第二分词规则。例如,通过将不确定性的替换条件用确定性的替换条件代替,这里,确定性的替换条件可以由配置人员自行添加,也可以从配置信息的其他分词规则中获取,当然也可以从云端服务器中获取,这里,不限定所述替换条件的替换来源和替换方式。本实施例中,通过预定规则,实现对替换条件的转换,可以将不确定性的分词规则转换成确定性的分词规则。
具体地,第一集合包含所述至少两条第一分词规则所包含的替换条件;所述替换条件为:将原词替换成目标词的条件;所述将所述第一分词规则转换成第二分词规则,还可以包括:若所述第一分词规则包含的第一条件为开放式条件,则根据所述第一集合得到第二集合,其中,所述第二集合包含的第二条件为:所述第一集合除所述第一条件以外的替换条件;基于所述第二条件与所述第一分词规则所包含的原词和目标词,构成所述第二分词规则。
这里,所述第一集合包括所述配置信息中所有第一分词规则所包含的替换条件的集合;所述第二集合则包含除当前的所述第一分词规则包含的第一条件以外的替换条件的集合。实际上,在当前的所述第一分词规则包含的第一条件为开放式条件时,可以利用配置信息的其他第一分词规则的替换条件中包含的封闭式的条件,替换所述第一分词规则的第一条件,以转换成一个确定性的第二分词规则。本实施例,无需配置人员手动操作,且无需联网,实现起来简单快捷。
在另一实施例中,所述若所述第一分词规则包含的第一条件为开放式条件,则根据所述第一集合得到第二集合,可以包括:若所述第一分词规则包含的所述第一条件为所述开放式条件,则基于所述配置信息中包含有封闭式条件的所述第一分词规则中所述封闭式条件所限定的词条,确定所述第二集合包含的所述第二条件;根据所述第二集合包含的所述第二条件,得到所述第二集合。
可以理解的是,含有否定含义的否定字段的所述第一分词规则,可以包括:原词、目标词和开放式条件。这里,所述原词例如是“只有”,所述目标词例如是“只有”,所述开放式开条件例如是“原词后不出现“点”字时,将所述目标词替换所述原词。意味着,如果“只有”后面没有出现“点”字,那么目标词则也为“只有”,即“只有”不会被拆分成“只”和“有”。而符合“只有”后面没有出现“点”字的条件的文本信息有无穷多。因此,这种含有开放式条件的所述第一分词规则是一种不确定的规则,这种含有开放式条件的所述第一规则具有不确定性。
这里,所述第二集合包含的所述第二条件实际上可以理解为:一种封闭式条件。
在一些实施例中,所述第二集合包含的所述第二条件能够对含有开放式条件第一分词规则的条件进行补充,即通过将第一分词规则的第一条件替换成第二集合包含的所述第二条件后,使得所述含有开放式条件的第一分词规则成为一种确定性的第二分词规则。
在本实施例中,对于所述第一分词规则含有开放式条件,会根据第一集合得到第二集合,其中,所述第二集合包含的第二条件为:所述第一集合除所述第一条件以外的替换条件,基于所述第二条件与所述第一分词规则所包含的原词和目标词一起作为所述第二分词规则。如此,通过替换所述第一分词规则的第一条件的方式来对含有开放式条件的第一分词规则进行规则补充,使得这类含有开放式条件的具有不确定性的第一分词规则转换成一种具有确定性的第二分词规则,利用这一确定性的第二分词规则作为后续进行分词规则之间确定是否冲突的判断依据,可以提高确定出的存在冲突的第一分词规则的准确性。
进一步地,所述开放式条件可以用含有否定含义的否定字段表征;所述封闭式条件可以用未含有否定含义的否定字段表征。
这里,含有否定含义的否定字段的所述第一分词规则也为一种不确定的规则。
在一些实施例中,所述开放式条件:包括含有否定含义的否定字段;所述否定含义的否定字段包括以下至少之一:
位于所述第一分词规则中待匹配的原词之前的第一类否定字段;
位于所述第一分词规则中待匹配的原词之后的第二类否定字段。
在一些实施例中,假设所述配置信息包括所述第一分词规则A、第一分词规则B和第一分词规则C。所述第一分词规则A含有否定含义的否定字段,而第一分词规则B含有肯定含义的肯定字段,所述第一分词规则C也含有肯定字段,那么所述第一分词规则A对应的第二集合包含的第二条件则可以由第一分词B和第一分词规则C分别的所述肯定字段所连接的词条确定。如此一来,可以直接基于配置信息中的第一分词规则A的第一条件之外的其他分词规则的替换条件中确定所述第二集合包含的第二条件,无需人工补充,即自动确定第二集合包含的第二条件以及自动生成第二分词规则,提高检测分词规则间冲突的智能性,同时,也能适应于第一分词规则较多,处理信息量大的所述配置信息,提高处理速度。
进一步地,所述封闭式条件包括:含有肯定含义的肯定字段;所述若所述第一分词含有开放式条件,则基于所述配置信息中封闭式条件的所述第一分词规则中所述封闭式条件所限定的词条,确定所述第二集合包含的所述第二条件,包括以下至少之一:
若所述第一分词规则含有所述第一类否定字段,则基于所述配置信息中包含有第一类肯定字段的所述第一分词规则的所述第一类肯定字段所连接的词条,确定所述第二集合包含的所述第二条件;其中,所述第一类否定字段和第一类肯定字段,互为在所述第一分词规则中位置相同但不同含义的字段;
若所述第一分词规则含有所述第二类否定字段,则基于所述配置信息中包含有第二类肯定字段的所述第一分词规则的所述第二类肯定字段所连接的词条,确定所述第二集合包含的所述第二条件;其中,所述第二类否定字段和所述第二类肯定字段,互为在所述第一分词规则中位置相同但不同含义的字段,且所述第二类否定字段与所述第一类否定字段在所述第一分词的规则中位置不同。
这里,所述第一类肯定字段与所述第一类否定字段在所述第一分词规则中的为位置相同,可以理解为,第一类肯定字段和第一类否定字段都是用来限定相对于待匹配的原词在同一位置所出现的词的。可以理解的是,所述第一类否定字段位于所述第一分词规则中待匹配的原词之前,相应地,所述第一类肯定字段也位于所述第一分词规则中待匹配的原词之前。例如,所述第一类否定字段可以用于限定所述待匹配的原词之前不出现第一关键字的情况,而所述第一类肯定字段可以用于限定所述待匹配的原词之前出现第二关键字的情况;其中,第一关键字和第二关键字可以相同也可以不同。
相应地,这里,所述第二类肯定字段与所述第二类否定字段在所述第一分词规则中的位置相同,可以理解为,第二类肯定字段和第二类否定字段都是用来限定相对于待匹配的原词在同一位置所出现的词的。可以理解的是,所述第二类否定字段位于所述第一分词中待匹配的原词之后,相应地,所述第二类肯定字段也位于所述第一分词规则中待匹配的原词之后,例如,所述第二类否定字段可以用于限定所述待匹配的原词之后不出现第三关键字的情况,而所述第二类肯定字段可以用于限定所述待匹配的原词之后出现第四关键字的情况;其中,第三关键字和第四关键字可以相同也可以不同。
本实施例中,通过否定字段按照位置的不同进行分类,将同一类否定字段对应肯定字段所连接的词条作为所述第二集合包含的所述第二条件,减少因为所述第一分词规则中不同位置同时出现肯定字段和否定字段时,对这类第一分词规则的所述第二集合包含的所述第二条件的获取的遗漏现象。
在另一些实施例中,所述方法还包括:若所述第一分词规则包含的所述第一条件为封闭式条件,则确定所述第一分词规则自身为所述第二分词规则。
具体地,所述方法还包括:若所述第一分词规则含有肯定含义的肯定字段,则确定所述第一分词规则自身为所述第二分词规则。
这里,由于所述第一分词规则中含有肯定含义的肯定字段,则可以确定所述第一分词规则自身就是一个确定性的规则,因此,可以直接将第一分词规则作为所述第二分词规则。
本实施例中,将含有所述封闭式条件的所述第一分词规则直接作为第二分词规则,不需要再进行替换条件的转换等,提高处理速度。
步骤103:当任意两条所述第二分词规则匹配到的文本信息的字符串存在交集时,确定存在交集的任意两条所述第二分词规则对应的两条所述第一分词规则存在冲突。
这里,所述每一条所述第二分词规则所匹配的字符串表征能够满足所述第二分词规则的所有字符串。
这里,所述交集包括任意两条所述第二分词规则中,其中一条所述第二分词规则所匹配的文本信息的字符串与其中另一条所述第二分词规则所匹配的文本信息的字符串之间的字符串交集。若任意两条所述第二分词规则所匹配的文本信息的字符串存在交集,则表明所述交集对应的字符串同时可以满足上述任意两条所述第二分词规则,且由于所述第二分词规则是一种确定性的规则,故,存在交集的任意两条所述第二分词规则对应的两条所述第一分词规则存在冲突。
具体地,利用任意两条所述第二分词规则匹配到的文本信息的字符串存在交集,可以理解为,利用任意两条所述第二分词规则中的其中一条所述第二分词规则匹配任意字词时得到的第一字符串,与另一条所述第二分词规则匹配任意字词时得到的第二字符串;若所述第一字符串与所述第二字符串存在相对原词相邻位置的字词相同,则表明所述第一字符串与所述第二字符串存在交集,则表明所述两条所述第二分词规则匹配到的字符串存在交集。
例如,其中第一条所述第二分词规则为:原词“只有”的后缀有“求”,则将“只有”替换成“只有”;其中第二条所述第二分词规则为:原词“只有”的前缀有“一”,则将“只有”替换成“只/有”。那么根据任意字词对上述规则中第一条所述第二分词规则进行匹配,会得到包含有“只有求”的任何字词,因此,“一只有求”是可以被第一条所述第二分词规则匹配到的字符串。相应地,那么根据任意字词对上述规则中第二条所述第二分词规则进行匹配,会得到包含有“一只有”的任何字词,因此,“一只有求”也是可以被第二条所述第二分词规则匹配到的字符串。因此,这里,第一条所述第二分词规则所匹配的字符串与第二条所述第二分词规则所匹配的字符串存在交集“一只有求”。
再例如,其中第一条所述第二分词规则:原词“/主要/“的前缀有“摊”,后缀有“主”,则将原词“/主要/”替换成目标词“主/要”;其中第二条所述第二分词规则为原词“只有”的前缀有“一”,则将“只有”替换成“只/有”。那么根据任意字词对上述规则中第一条所述第二分词规则进行匹配,会得到包含有“摊/主要/求”的任何字词;相应地,那么根据任意字词对上述规则中第二条所述第二分词规则进行匹配,会得到包含有“一只有”的任何字词。因此,这两条所述第二分词规则不存在交集。
再例如,其中第一条所述第二分词规则为:原词“只有”的后缀有“点”,则将“只有”替换成“只/有”;其中第二条所述第二分词规则为:原词“只有”的后缀有“些”,则将“只有”替换成“只/有”。根据任意字词对上述规则中第一条所述第二分词规则进行匹配,会得到包含有“只有点”的任何字词;根据任意字词对上述规则中第二条所述第二分词规则进行匹配,会得到包含有“只有些”的任何字词。这里,“只有点”和“只有些”中,“点”和“些”并不相同,因此这两条所述第二分词规则不存在交集。
在一些实施例中,所述步骤103可以包括:将每一条所述第二分词规则转换成规则集合;根据所述规则集合,确定每一条所述第二分词规则所匹配的字符串;当任意两条所述第二分词规则所匹配的字符串存在交集时,确定存在交集的任意两条所述第二分词规则对应的两条所述第一分词规则存在冲突。
这里,所述规则集合包含满足所述第二分词规则的规则,所述满足所述第二分词规则的规则可以不止一个。利用满足所述第二分词规则的规则,确定每一条所述第二分词规则所匹配的字符串,能够尽可能地涵盖出所有第二分词规则所能匹配的所有字符串,减少字符串遗漏导致的检测结果的不准确性。
具体地,所述将每一条所述第二分词规则转换成规则集合,包括:
将每一条所述第二分词规则转换成正则表达式;将所述正则表达式转换成自动机的自动机语言集合。
正则表达式是对字符串操作的一种逻辑公式,是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”可以用来表达对字符串的一种过滤逻辑。这里,所述正则表达式可以用来搜索、替换符合所述第二分词规则的文本,该文本即为第二分词规则所匹配的字符串。
进一步地,将所述正则表达式转换成自动机的自动机语言集合,能迅速得到所述第二分词规则所匹配的字符串,从而迅速得到任意所述第二分词规则所匹配的字符串是否存在交集。
本实施例中,由于将所述第二分词规则转换成了正则表达式,可以很方便地将所述第二分词规则转换成自动机的自动机语言集合,能提高处理速度,且智能性高。
需要补充的是,依据自动机的自动机语言集合中得到交集可以在配置信息完成后即可实现,无需等到执行所述配置信息时再去找匹配出的字符串所存在的交集。因此,本实施例通过将第二分词规则转成自动机所能识别的正则表达式,不仅使用方便,且能够提前对所述配置信息进行检测以确定出发生冲突的两条所述第一分词规则。使得人们能够对所确定的发生冲突的两条所述第一分词规则进行及时的调整,以重新规划所述配置信息,提高配置信息的可靠性和稳定性。
步骤104:按照所述配置信息处理所述文本信息,输出所述文本信息的分词结果。
上述实施例中,终端会对配置信息中的第一分词规则进行转换,以得到第二分词规则,这里,第二分词规则是一个确定性的分词规则,因此,利用这种确定性的第二分词规则,能够快速并准确地排查出所述配置信息中存在冲突的第一分词规则。
正是由于将所述配置信息中存在冲突的所述第一分词规则排查处理,进而可以让开发人员对排查出的存在冲突的所述第一分词规则进行修改,以得到修改后的配置信息,从而可以减少配置信息中发生冲突的所述第一分词规则。意味着,基于所述配置信息处理所述文本信息,输出所述文本信息的分词结果,能够使得所得到的分词结果更准确,从而最终使得基于所述配置信息进行文本信息分词处理更具可靠性和稳定性。
进一步地,本公开还提供了一个具体实施例,以进一步理解本公开实施例所提供的文本信息分词处理的方法。
请参阅图2,图2是相关技术中的文本信息分词处理所输出的树形图,如图2所示,利用Trie树可以将输入文本按照所述配置信息输出对应的分词结果。当向Trie树输入的文本信息包括“客房/费用/处”这句话时,若可以同时匹配到7和13两个状态,则表明配置信息中产生状态7的对应规则和产生状态13的对应规则冲突;当向Trie树输入“光明/在前方”这句话时,若可以同时匹配到18和23两个状态,则表明配置信息中产生状态18的对应规则和产生状态23的对应规则冲突。
需要说明的是,这里产生状态7、13、18和23的对应规则是一个确定性的规则。
针对配置信息中一些不确定的分词规则无法根据树形输入的方式排除出是否与配置信息中的其他分词规则有冲突的问题,本实施例提供了一种通过配置信息中所有的分词规则,将每一个分词规则转换成一个确定性的分词规则,对于本身是确定性的分词规则,则转换成自身,对于本身是不确定性的分词规则,可以通过替换所述第一分词规则包含的第一条件的方式转换成一个确定性的分词规则。
这里,转换前的分词规则则为上述实施例所述的第一分词规则,转换后的分词规则则为上述实施例所述的第二分词规则。
具体地,请参阅图3,所述配置信息包括第一分词规则A、第一分词规则B和第一分词规则C。这里,第一个分词规则B包括:原词“只有”,目标词“只有”,开放式条件“待匹配的原词之后不出现“点””;意味着,只要输入的文本信息中“只有”的后面没有出现“点”,都将“只有”作为一个整词进行替换。第一分词规则C包括:原词“只有”、目标词“只/有”,开放式条件“待匹配的原词前出现“一”;意味着,只要输入的文本信息中“只有”的前面出现“一”都将“只有”拆分成“只”和“有”。显然,若输入的文本信息中含有字符串“一只有些”时,会同时满足第一分词规则B和第一分词规则C,因此,这里的第一分词规则B和第一分词规则C是冲突的。
若采用相关技术进行树形图输出时,请再参阅图2,第一分词规则B和第一分词规则C在Trie树的输出均为状态15,因此,通过相关技术中的文本信息分词处理的方法所输出的树形图无法检测出对于含有开放式条件的分词规则,也就是不确定性的分词规则是否与其他分词规则冲突。因此,采用相关技术根本无法排除出配置文件中的分词规则是否存在冲突。
在本实施例中,所述文本信息分词处理的方法可以包括:获取文本信息以及配置信息;其中,所述配置信息包括至少两条第一分词规则;若所述第一分词规则含有否定含义的否定字段,则根据第一集合得到第二集合,其中,第一集合包含所述至少两条第一分词规则所包含的替换条件;所述第二集合包含的第二条件为:所述第一集合中除所述第一条件以外的替换条件;所述替换条件为:将原词替换成目标词的条件;基于所述第二条件与所述第一分词规则所包含的原词和目标词,构成所述第二分词规则。
这里,请再参阅图3,所述配置规则包括第一分词规则A、第二分词规则B和第二分词规则C,其中,所述第二分词规则C和所述第二分词规则B都含有开放式条件,因此,可以将含有肯定含义的肯定字段的第一分词规则A中所述肯定字段所连接的词条,确定所述第二集合的所述第二条件。
进一步地,这里,所述否定字段为上述实施例所述的第二类否定字段。
所述若所述第一分词规则含有否定字段,则基于所述配置信息中包含有肯定字段的所述第一分词规则中所述肯定字段所连接的词条,确定所述第二集合包含的所述第二条件,包括:若所述第一分词规则包含有第二类否定字段,则基于所述配置信息中包含有第二类肯定字段的所述第一分词规则的所述第二类肯定字段所连接的词条,确定所述第二集合包含的所述第二条件;其中,所述第二类否定字段和所述第二类肯定字段,互为在所述第一分词规则中位置相同但不同含义的字段。
这里,所述第一分词规则B的第二类否定字段表征的条件为:待匹配的原词后缀无“点”,需要利用第一分词规则A的后缀字段表征的条件构造所述第二集合的所述第二条件,然后将所述第二集合的所述第二条件与所述第一分词B规则的原词和目标词作为所述第二分词规则B。这里,所述第二分词规则B可以包括:原词“只有”,目标词“只有”,开放式条件即后缀词无“点”,以及封闭式条件即后缀词有“求”。
因此,可以将具有不确定性的第一分词规则B转换成含有封闭式条件的第二分词规则B。
进一步地,在一些实施例中,将每条规则转换成的所述第二分词规则转换成正则表达式;将正则表达式转换成自动机的自动机语音集合;当任意两条所述第二分词规则所匹配的字符串存在交集时,确定存在交集的任意两条所述第二分词规则对应的两条所述第一分词规则存在冲突。
具体地,将第一分词规则A转换成正则表达式为“摊/主要/求;将第一分词规则B转换成正则表达式“.{0,NUM}只有求”;将第一分词规则C转换成正则表达为“一只有.{0,NUM}”。然后将上述正则表达式分别转换成自动机的自动机语言集合,根据自动机语音集合中的自动机语音匹配出的字符串中是否存在交集,确定存在交集的任意两条所述第二分词规则对应的两条所述第一分词规则存在冲突。
这里,请再参阅图2,所述配置信息中的第一分词规则B和第一分词规则C对应的自动机语言集合的交集可以由以下表示:
Automaton('.{0,2}只有求')∩Automaton('一只有.{0,2}')=一只有求
因此,第一分词规则B和第一分词规则C对应的自动机语音集合交集匹配到的字符串为“一只有求”这个字符串。因此,第一分词规则B和第一分词规则C之间冲突。
而第一分词规则A和第一分词规则C对应的自动机语言集合交集可以由以下表示:
Automaton('.摊/主要/求')∩Automaton('一只有.{0,2}')=空集
因此第一分词规则A和第一分词规则C之间不冲突。
采用上述实施例所述的方法,可以排查出所述配置信息中是否有一些不确定性的分词规则与其他规则之间存在冲突。同时由于采用自动机集合语音进行分词,可以不用等到配置信息执行阶段进行检测,而是在配置信息完成后即可检测,能够保证配置信息执行前的可靠性、稳定性和处理速度。
图4是根据一示例性实施例示出的一种文本信息分词处理的装置框图。参照图4,该装置包括获取模块41、转换模块42、第一确定模块43及输出模块44;
所述获取模块41,被配置为获取文本信息以及配置信息,其中,所述配置信息包括至少两条第一分词规则;
转换模块42,被配置为按照预定规则,将所述第一分词规则转换成第二分词规则;
第一确定模块43,被配置为当利用任意两条所述第二分词规则匹配到的文本信息的字符串存在交集时,确定存在交集的任意两条所述第二分词规则对应的两条所述第一分词规则存在冲突;
输出模块44,被配置为按照所述配置信息处理所述文本信息,输出所述文本信息的分词结果。
在一个可选的实施例中,第一集合包含所述至少两条第一分词规则所包含的替换条件;所述替换条件为:将原词替换成目标词的条件;
所述转换模块42,还被配置为:
若所述第一分词规则包含的第一条件为开放式条件,则根据所述第一集合得到第二集合,其中,所述第二集合包含的第二条件为:所述第一集合中除所述第一条件以外的所述替换条件;所述替换条件为:将原词替换成目标词的条件;
基于所述第二条件与所述第一分词规则所包含的原词和目标词,构成所述第二分词规则。
在一个可选的实施例中,所述转换模块42,还包括:
第一确定子模块,被配置为:
若所述第一分词规则包含的所述第一条件为开放式条件,则基于所述配置信息中包含有所述替换条件包括的封闭式条件的所述第一分词规则中所述封闭式条件所限定的词条,确定所述第二集合包含的所述第二条件;根据所述第二集合包含的所述第二条件,得到所述第二集合。
在一个可选的实施例中,所述开放式条件包括:含有否定含义的否定字段;
所述否定含义的否定字段包括以下至少之一:
位于所述第一分词规则中待匹配的原词之前的第一类否定字段;
位于所述第一分词规则中待匹配的原词之后的第二类否定字段;
所述封闭式条件包括:含有肯定含义的肯定字段;
所述第一确定子模块,还被配置为以下至少之一:
若所述第一分词规则包含有所述第一类否定字段,则基于所述配置信息中包含有第一类肯定字段的所述第一分词规则的所述第一类肯定字段所连接的词条,确定所述第二集合包含的所述第二条件;其中,所述第一类否定字段和所述第一类肯定字段,互为在所述第一分词规则中位置相同但不同含义的字段;
若所述第一分词规则包含有所述第二类否定字段,则基于所述配置信息中包含有第二类肯定字段的所述第一分词规则的所述第二类肯定字段所连接的词条,确定所述第二集合包含的所述第二条件;其中,所述第二类否定字段和所述第二类肯定字段,互为在所述第一分词规则中位置相同但不同含义的字段;且所述第二类否定字段与所述第一类否定字段在所述第一分词规则中位置不同。
在一个可选的实施例中,所述装置还包括:
第二确定模块,还被配置为:
若所述第一分词规则包含的所述第一条件为封闭式条件,则确定所述第一分词规则自身为所述第二分词规则。
在一个可选的实施例中,所述第一确定模块43,还包括:
转换子模块,被配置为将每一条所述第二分词规则转换成规则集合;
第二确定子模块,被配置为根据所述规则集合,确定每一条所述第二分词规则所匹配的字符串;
第三确定子模块,被配置为当任意两条所述第二分词规则所匹配的字符串存在交集时,确定存在交集的任意两条所述第二分词规则对应的两条所述第一分词规则存在冲突。
在一个可选的实施例中,所述转换子模块,还被配置为:
将每一条所述第二分词规则转换成正则表达式;将所述正则表达式转换成自动机的自动机语言集合。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图5是根据一示例性实施例示出的一种终端500的框图。例如,终端500可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图5,终端500可以包括以下一个或多个组件:处理组件502,存储器504,电力组件506,多媒体组件508,音频组件510,输入/输出(I/O)的接口512,传感器组件514,以及通信组件516。
处理组件502通常控制终端500的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件502可以包括一个或多个处理器520来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件502可以包括一个或多个模块,便于处理组件502和其他组件之间的交互。例如,处理组件502可以包括多媒体模块,以方便多媒体组件508和处理组件502之间的交互。
存储器504被配置为存储各种类型的数据以支持在终端500的操作。这些数据的示例包括用于在终端500上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件506为终端500的各种组件提供电力。电力组件506可以包括电源管理系统,一个或多个电源,及其他与为终端500生成、管理和分配电力相关联的组件。
多媒体组件508包括在所述终端500和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件508包括一个前置摄像头和/或后置摄像头。当终端500处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件510被配置为输出和/或输入音频信号。例如,音频组件510包括一个麦克风(MIC),当终端500处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件516发送。在一些实施例中,音频组件510还包括一个扬声器,用于输出音频信号。
I/O接口512为处理组件502和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件514包括一个或多个传感器,用于为终端500提供各个方面的状态评估。例如,传感器组件514可以检测到终端500的打开/关闭状态,组件的相对定位,例如所述组件为终端500的显示器和小键盘,传感器组件514还可以检测终端500或终端5000一个组件的位置改变,用户与终端500接触的存在或不存在,终端500方位或加速/减速和终端500的温度变化。传感器组件514可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件514还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件514还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件516被配置为便于终端500和其他设备之间有线或无线方式的通信。终端500可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件516经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件516还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,终端500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器504,上述指令可由终端500的处理器520执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由终端的处理器执行时,使得终端能够执行上述各实施例所述的文本信息分词处理的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (14)

1.一种文本信息分词处理的方法,其特征在于,包括:
获取文本信息以及配置信息,其中,所述配置信息包括至少两条第一分词规则;
按照预定规则,将所述第一分词规则转换成第二分词规则,包括:
若所述第一分词规则包含的第一条件为开放式条件,则根据第一集合得到第二集合;基于第二条件与所述第一分词规则所包含的原词和目标词,构成所述第二分词规则,其中,所述第一集合包含所述至少两条第一分词规则所包含的替换条件,所述第二集合包含的第二条件为:所述第一集合中除所述第一条件以外的所述替换条件;
若所述第一分词规则包含的所述第一条件为封闭式条件,则确定所述第一分词规则自身为所述第二分词规则;
当利用任意两条所述第二分词规则匹配到的文本信息的字符串存在交集时,确定存在交集的任意两条所述第二分词规则对应的两条所述第一分词规则存在冲突;所述存在交集为存在相对原词相邻位置的字词相同;
按照所述配置信息处理所述文本信息,输出所述文本信息的分词结果。
2.根据权利要求1所述的方法,其特征在于,所述替换条件为:将原词替换成目标词的条件。
3.根据权利要求2所述的方法,其特征在于,所述若所述第一分词规则包含的第一条件为开放式条件,则根据所述第一集合得到第二集合,包括:
若所述第一分词规则包含的所述第一条件为所述开放式条件,则基于所述配置信息中包含有封闭式条件的所述第一分词规则中所述封闭式条件所限定的词条,确定所述第二集合包含的所述第二条件;根据所述第二集合包含的所述第二条件,得到所述第二集合。
4.根据权利要求3所述的方法,其特征在于,所述开放式条件包括:含有否定含义的否定字段;
所述含有否定含义的否定字段包括以下至少之一:
位于所述第一分词规则中待匹配的原词之前的第一类否定字段;
位于所述第一分词规则中待匹配的原词之后的第二类否定字段;
所述封闭式条件包括:含有肯定含义的肯定字段;
所述若所述第一分词规则含有开放式条件,则基于所述配置信息中包含有封闭式条件的所述第一分词规则中所述封闭式条件所限定的词条,确定所述第二集合包含的所述第二条件,包括以下至少之一:
若所述第一分词规则包含有所述第一类否定字段,则基于所述配置信息中包含有第一类肯定字段的所述第一分词规则的所述第一类肯定字段所连接的词条,确定所述第二集合包含的所述第二条件;其中,所述第一类否定字段和所述第一类肯定字段,互为在所述第一分词规则中位置相同但不同含义的字段;
若所述第一分词规则包含有所述第二类否定字段,则基于所述配置信息中包含有第二类肯定字段的所述第一分词规则的所述第二类肯定字段所连接的词条,确定所述第二集合包含的所述第二条件;其中,所述第二类否定字段和所述第二类肯定字段,互为在所述第一分词规则中位置相同但不同含义的字段;且所述第二类否定字段与所述第一类否定字段在所述第一分词规则中位置不同。
5.根据权利要求1所述的方法,其特征在于,所述当利用任意两条所述第二分词规则匹配到的字符串存在交集时,确定存在交集的任意两条所述第二分词规则对应的两条所述第一分词规则存在冲突,包括:
将每一条所述第二分词规则转换成规则集合;
根据所述规则集合,确定每一条所述第二分词规则所匹配的字符串;
当任意两条所述第二分词规则所匹配的字符串存在交集时,确定存在交集的任意两条所述第二分词规则对应的两条所述第一分词规则存在冲突。
6.根据权利要求5所述的方法,其特征在于,所述将每一条所述第二分词规则转换成规则集合,包括:
将每一条所述第二分词规则转换成正则表达式;
将所述正则表达式转换成自动机的自动机语言集合。
7.一种文本信息分词处理的装置,其特征在于,包括:
获取模块,被配置为获取文本信息以及配置信息,其中,所述配置信息包括至少两条第一分词规则;
转换模块,被配置为按照预定规则,将所述第一分词规则转换成第二分词规则,包括:
若所述第一分词规则包含的第一条件为开放式条件,则根据第一集合得到第二集合;基于第二条件与所述第一分词规则所包含的原词和目标词,构成所述第二分词规则,其中,所述第一集合包含所述至少两条第一分词规则所包含的替换条件,所述第二集合包含的第二条件为:所述第一集合中除所述第一条件以外的所述替换条件;
若所述第一分词规则包含的所述第一条件为封闭式条件,则确定所述第一分词规则自身为所述第二分词规则;
第一确定模块,被配置为当利用任意两条所述第二分词规则匹配到的文本信息的字符串存在交集时,确定存在交集的任意两条所述第二分词规则对应的两条所述第一分词规则存在冲突;所述存在交集为存在相对原词相邻位置的字词相同;
输出模块,被配置为按照所述配置信息处理所述文本信息,输出所述文本信息的分词结果。
8.根据权利要求7所述的装置,其特征在于,所述替换条件为:将原词替换成目标词的条件。
9.根据权利要求8所述的装置,其特征在于,所述转换模块,还包括:
第一确定子模块,被配置为:
若所述第一分词规则包含的所述第一条件为所述开放式条件,则基于所述配置信息中包含有封闭式条件的所述第一分词规则中所述封闭式条件所限定的词条,确定所述第二集合包含的所述第二条件;根据所述第二集合包含的所述第二条件,得到所述第二集合。
10.根据权利要求9所述的装置,其特征在于,所述开放式条件包括:含有否定含义的否定字段;
所述否定含义的否定字段包括以下至少之一:
位于所述第一分词规则中待匹配的原词之前的第一类否定字段;
位于所述第一分词规则中待匹配的原词之后的第二类否定字段;
所述封闭式条件包括:含有肯定含义的肯定字段;
所述第一确定子模块,还被配置为以下至少之一:
若所述第一分词规则包含有所述第一类否定字段,则基于所述配置信息中包含有第一类肯定字段的所述第一分词规则的所述第一类肯定字段所连接的词条,确定所述第二集合包含的所述第二条件;其中,所述第一类否定字段和所述第一类肯定字段,互为在所述第一分词规则中位置相同但不同含义的字段;
若所述第一分词规则包含有所述第二类否定字段,则基于所述配置信息中包含有第二类肯定字段的所述第一分词规则的所述第二类肯定字段所连接的词条,确定所述第二集合包含的所述第二条件;其中,所述第二类否定字段和所述第二类肯定字段,互为在所述第一分词规则中位置相同但不同含义的字段;且所述第二类否定字段与所述第一类否定字段在所述第一分词规则中位置不同。
11.根据权利要求7所述的装置,其特征在于,所述第一确定模块,还包括:
转换子模块,被配置为将每一条所述第二分词规则转换成规则集合;
第二确定子模块,被配置为根据所述规则集合,确定每一条所述第二分词规则所匹配的字符串;
第三确定子模块,被配置为当任意两条所述第二分词规则所匹配的字符串存在交集时,确定存在交集的任意两条所述第二分词规则对应的两条所述第一分词规则存在冲突。
12.根据权利要求11所述的装置,其特征在于,所述转换子模块,还被配置为:
将每一条所述第二分词规则转换成正则表达式;将所述正则表达式转换成自动机的自动机语言集合。
13.一种终端,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取文本信息以及配置信息,其中,所述配置信息包括至少两条第一分词规则;
按照预定规则,将所述第一分词规则转换成第二分词规则,包括:
若所述第一分词规则包含的第一条件为开放式条件,则根据第一集合得到第二集合;基于第二条件与所述第一分词规则所包含的原词和目标词,构成所述第二分词规则,其中,所述第一集合包含所述至少两条第一分词规则所包含的替换条件,所述第二集合包含的第二条件为:所述第一集合中除所述第一条件以外的所述替换条件;
若所述第一分词规则包含的所述第一条件为封闭式条件,则确定所述第一分词规则自身为所述第二分词规则;
当利用任意两条所述第二分词规则匹配到的文本信息的字符串存在交集时,确定存在交集的任意两条所述第二分词规则对应的两条所述第一分词规则存在冲突;所述存在交集为存在相对原词相邻位置的字词相同;
按照所述配置信息处理所述文本信息,输出所述文本信息的分词结果。
14.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行实现权利要求1至6中任一项所述的方法步骤。
CN201911168682.6A 2019-11-25 2019-11-25 一种文本信息分词处理的方法、装置、终端及存储介质 Active CN111079421B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201911168682.6A CN111079421B (zh) 2019-11-25 2019-11-25 一种文本信息分词处理的方法、装置、终端及存储介质
US16/872,793 US11373038B2 (en) 2019-11-25 2020-05-12 Method and terminal for performing word segmentation on text information, and storage medium
EP20176513.8A EP3825894A1 (en) 2019-11-25 2020-05-26 Method, device and terminal for performing word segmentation on text information, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911168682.6A CN111079421B (zh) 2019-11-25 2019-11-25 一种文本信息分词处理的方法、装置、终端及存储介质

Publications (2)

Publication Number Publication Date
CN111079421A CN111079421A (zh) 2020-04-28
CN111079421B true CN111079421B (zh) 2023-09-26

Family

ID=70311667

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911168682.6A Active CN111079421B (zh) 2019-11-25 2019-11-25 一种文本信息分词处理的方法、装置、终端及存储介质

Country Status (3)

Country Link
US (1) US11373038B2 (zh)
EP (1) EP3825894A1 (zh)
CN (1) CN111079421B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079421B (zh) * 2019-11-25 2023-09-26 北京小米智能科技有限公司 一种文本信息分词处理的方法、装置、终端及存储介质
CN115203495B (zh) * 2022-09-14 2022-11-29 华控清交信息科技(北京)有限公司 一种字符串模糊匹配方法、装置及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101464897A (zh) * 2009-01-12 2009-06-24 阿里巴巴集团控股有限公司 一种词匹配及信息查询方法及装置
CN101950284A (zh) * 2010-09-27 2011-01-19 北京新媒传信科技有限公司 中文分词方法及系统
CN102411563A (zh) * 2010-09-26 2012-04-11 阿里巴巴集团控股有限公司 一种识别目标词的方法、装置及系统
CN105159871A (zh) * 2015-08-21 2015-12-16 小米科技有限责任公司 文本信息检测方法及装置
CN106649251A (zh) * 2015-10-30 2017-05-10 北京国双科技有限公司 一种中文分词的方法及装置
CN109635077A (zh) * 2018-12-18 2019-04-16 武汉斗鱼网络科技有限公司 文本相似度的计算方法、装置、电子设备及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6678409B1 (en) * 2000-01-14 2004-01-13 Microsoft Corporation Parameterized word segmentation of unsegmented text
JP2010048953A (ja) * 2008-08-20 2010-03-04 Toshiba Corp 対話文生成装置
CN107273356B (zh) * 2017-06-14 2020-08-11 北京百度网讯科技有限公司 基于人工智能的分词方法、装置、服务器和存储介质
JP7176246B2 (ja) * 2018-06-22 2022-11-22 コニカミノルタ株式会社 文書解析装置、文書構成解析方法及びプログラム
CN109741732B (zh) * 2018-08-30 2022-06-21 京东方科技集团股份有限公司 命名实体识别方法、命名实体识别装置、设备及介质
CN110795938B (zh) * 2019-11-11 2023-11-10 北京小米智能科技有限公司 文本序列分词方法、装置及存储介质
CN111079421B (zh) * 2019-11-25 2023-09-26 北京小米智能科技有限公司 一种文本信息分词处理的方法、装置、终端及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101464897A (zh) * 2009-01-12 2009-06-24 阿里巴巴集团控股有限公司 一种词匹配及信息查询方法及装置
CN102411563A (zh) * 2010-09-26 2012-04-11 阿里巴巴集团控股有限公司 一种识别目标词的方法、装置及系统
CN101950284A (zh) * 2010-09-27 2011-01-19 北京新媒传信科技有限公司 中文分词方法及系统
CN105159871A (zh) * 2015-08-21 2015-12-16 小米科技有限责任公司 文本信息检测方法及装置
CN106649251A (zh) * 2015-10-30 2017-05-10 北京国双科技有限公司 一种中文分词的方法及装置
CN109635077A (zh) * 2018-12-18 2019-04-16 武汉斗鱼网络科技有限公司 文本相似度的计算方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
EP3825894A1 (en) 2021-05-26
US20210157981A1 (en) 2021-05-27
US11373038B2 (en) 2022-06-28
CN111079421A (zh) 2020-04-28

Similar Documents

Publication Publication Date Title
CN109359056B (zh) 一种应用程序测试方法及装置
CN110941942B (zh) 电路原理图检查方法、装置及系统
CN108038102B (zh) 表情图像的推荐方法、装置、终端及存储介质
CN109447125B (zh) 分类模型的处理方法、装置、电子设备及存储介质
CN114240882A (zh) 缺陷检测方法及装置、电子设备和存储介质
CN111539443A (zh) 一种图像识别模型训练方法及装置、存储介质
CN110781813B (zh) 图像识别方法及装置、电子设备和存储介质
US11335348B2 (en) Input method, device, apparatus, and storage medium
CN109255128B (zh) 多层级标签的生成方法、装置和存储介质
CN111079421B (zh) 一种文本信息分词处理的方法、装置、终端及存储介质
CN111046927B (zh) 标注数据的处理方法、装置、电子设备及存储介质
CN113920293A (zh) 信息识别方法、装置、电子设备及存储介质
CN113779257A (zh) 文本分类模型的解析方法、装置、设备、介质及产品
CN111813932B (zh) 文本数据的处理方法、分类方法、装置及可读存储介质
RU2608470C2 (ru) Способ и устройство для обновления пользовательских данных
CN116069612A (zh) 一种异常定位方法、装置和电子设备
CN111324214B (zh) 一种语句纠错方法和装置
CN109145151B (zh) 一种视频的情感分类获取方法及装置
CN114466204B (zh) 一种视频弹幕的显示方法、装置、电子设备及存储介质
CN108108356B (zh) 一种文字翻译方法、装置及设备
CN116127062A (zh) 预训练语言模型的训练方法、文本情感分类方法及装置
CN112149653B (zh) 信息处理方法、装置、电子设备及存储介质
CN114462410A (zh) 实体识别方法、装置、终端及存储介质
CN110765111B (zh) 存储和读取方法、装置、电子设备和存储介质
CN110837741B (zh) 一种机器翻译方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant