CN108073566A - 分词方法和装置、用于分词的装置 - Google Patents
分词方法和装置、用于分词的装置 Download PDFInfo
- Publication number
- CN108073566A CN108073566A CN201611030865.8A CN201611030865A CN108073566A CN 108073566 A CN108073566 A CN 108073566A CN 201611030865 A CN201611030865 A CN 201611030865A CN 108073566 A CN108073566 A CN 108073566A
- Authority
- CN
- China
- Prior art keywords
- vocabulary
- splice point
- splicing
- preset dictionary
- backtracking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供了一种分词方法和装置、以及一种用于分词的装置,其中的方法具体包括:获取待分词文本对应的分词序列;从所述分词序列中获取未存在于预置词典中的目标词汇;所述预置词典用于存储词汇;依据所述预置词典对所述目标词汇进行切分处理,以得到对应的切分结果。本发明实施例能够将机器翻译装置无法翻译的词汇切开,因此能够提高分词结果的准确率,进而提高翻译结果的准确率。
Description
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种分词方法和装置、以及一种用于分词的装置。
背景技术
分词技术为自然语言处理领域中的一项重要的基础技术。所谓分词,就是将句子切分成一个一个单独的词,是将连续的句子按照一定的规范重新组合成词序列的过程。以中文分词技术为例,分词技术的目标就是将一句话切分为一个一个单独的中文词语。而将句子切分为单独的词,是实现机器识别人类语言的第一步,因此分词技术被广泛应用于文语转换、机器翻译、语音识别、文本摘要、文本检索等自然语言处理的应用分支中。
机器翻译技术是指利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。传统的机器翻译技术通常以词为粒度进行翻译,也即,在进行机器翻译前,需要将用户输入的源文本或者通过语音识别得到的源文本进行分词,再依据分词结果进行机器翻译;因此,分词结果的准确率对机器翻译质量有着至关重要的影响,分词结果的准确率高低将直接影响机器翻译质量的高低。
现有的分词方法具体可以包括:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法等。然而,现有的分词方法均无法做到100%的准确率,也即,现有的分词方法得到的分词结果中将有欠准确的词,该欠准确的词将会影响机器翻译指令。以源文本“左边的词大家都看到了吗”为例,现有的分词方法将该源文本切分为:“左边”、“的”、“词大家”、“都”、“看到”、“了”、“吗”,其中,“词大家”为欠准确的词,机器翻译装置以“词大家”为粒度进行翻译,将得到欠准确的翻译结果。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的分词方法、分词装置、及用于分词的装置,本发明实施例能够将机器翻译装置无法翻译的词汇切开,因此能够提高分词结果的准确率,进而提高翻译结果的准确率。
为了解决上述问题,本发明公开了一种分词方法,包括:
获取待分词文本对应的分词序列;
从所述分词序列中获取未存在于预置词典中的目标词汇;所述预置词典用于存储词汇;
依据所述预置词典对所述目标词汇进行切分处理,以得到对应的切分结果。
可选地,所述依据所述预置词典对所述目标词汇进行切分处理的步骤,包括:
从所述预置词典中获取所述目标词汇的拼接所需的最小数量的词汇,将所述最小数量的词汇作为所述目标词汇对应的切分结果。
可选地,所述从所述预置词典中获取所述目标词汇的拼接所需的最小数量的词汇的步骤,包括:
利用动态规划算法,从所述预置词典中获取所述目标词汇的拼接所需的最小数量的词汇。
可选地,所述利用动态规划算法,从所述预置词典中获取所述目标词汇的拼接所需的最小数量的词汇的步骤,包括:
获取所述目标词汇对应的字符序列集合;
按照所述字符序列集合的子集从小到大的顺序,通过递推方式确定各子集的拼接所需词汇的最小数量、以及对应的回溯拼接点;
依据所述字符序列集合的各子集的拼接所需词汇的最小数量、以及对应的回溯拼接点,得到所述目标词汇对应的切分结果。
可选地,所述字符序列集合的子集包括:所述字符序列集合中的前k个连续字符,前k个连续字符的拼接所需词汇的最小数量表示为F(k),0≤k≤所述目标词汇的字符个数M,则所述按照所述字符序列集合的子集从小到大的顺序,通过递推方式确定各子集的拼接所需词汇的最小数量的步骤,包括:
对所述前k个连续字符对应的拼接点t进行遍历,以得到始于所述拼接点t止于第k个连续字符的第一字符序列;其中,0≤t<k;
判断各拼接点t是否符合预置条件,以得到对应的判断结果;所述预置条件包括:所述拼接点t对应的第一字符序列存在于所述预置词典中、或者所述拼接点t对应的第一字符序列的组成字符为字母和/或数字,且前t个连续字符能够成功拼接;
依据所述判断结果、及所述拼接点t对应的F(t),得到F(k)。
可选地,所述依据所述判断结果、及所述拼接点t对应的F(t),得到F(k)的步骤,包括:
从符合预置条件的所有拼接点t对应的F(t)中获取最小的F(t),依据所述最小的F(t)得到F(k)。
可选地,所述按照所述字符序列集合的子集从小到大的顺序,通过递推方式确定各子集的拼接所需词汇的最小数量对应的回溯拼接点的步骤,还包括:
将所述最小的F(t)对应的拼接点作为F(k)对应的回溯拼接点进行记录,以得到相应的记录内容。
可选地,所述依据所述字符序列集合的各子集的拼接所需词汇的最小数量、以及对应的回溯拼接点,得到所述目标词汇对应的切分结果的步骤,包括:
对F(k)对应的回溯拼接点进行回溯,以得到所述字符序列集合对应最大子集的拼接所需词汇的最小数量对应的回溯拼接点;
依据所述字符序列集合对应最大子集的拼接所需词汇的最小数量对应的回溯拼接点,对所述目标词汇进行切分,以得到对应的切分结果。
可选地,所述对F(k)对应的回溯拼接点进行回溯的步骤,包括:
从所述记录内容中获取F(k)对应的第一回溯拼接点P1;
获取第一回溯拼接点P1对应的F(P1),并从记录内容中获取F(P1)对应的第二回溯拼接点P2。
可选地,通过如下步骤构建所述预置词典;
对预置语料中词汇的出现次数进行统计;
依据统计得到的出现次数,从所述预置语料中选取待保存词汇,并将所述待保存词汇保存至所述预置词典中。
另一方面,本发明公开了一种分词装置,包括:
分词序列获取模块,用于获取待分词文本对应的分词序列;
目标词汇获取模块,用于从所述分词序列中获取未存在于预置词典中的目标词汇;所述预置词典用于存储词汇;以及
切分处理模块,用于依据所述预置词典对所述目标词汇进行切分处理,以得到对应的切分结果。
可选地,所述切分处理模块包括:
最小切分子模块,用于从所述预置词典中获取所述目标词汇的拼接所需的最小数量的词汇,将所述最小数量的词汇作为所述目标词汇对应的切分结果。
可选地,所述最小切分子模块包括:
动态规划单元,用于利用动态规划算法,从所述预置词典中获取所述目标词汇的拼接所需的最小数量的词汇
可选地,所述动态规划单元,包括:
集合获取单元,用于获取所述目标词汇对应的字符序列集合;
递推单元,用于按照所述字符序列集合的子集从小到大的顺序,通过递推方式确定各子集的拼接所需词汇的最小数量、以及对应的回溯拼接点;
切分结果获取单元,用于依据所述字符序列集合的各子集的拼接所需词汇的最小数量、以及对应的回溯拼接点,得到所述目标词汇对应的切分结果。
可选地,所述字符序列集合的子集包括:所述字符序列集合中的前k个连续字符,前k个连续字符的拼接所需词汇的最小数量表示为F(k),0≤k≤所述目标词汇的字符个数M,则所述递推单元包括:
遍历子单元,用于对所述前k个连续字符对应的拼接点t进行遍历,以得到始于所述拼接点t止于第k个连续字符的第一字符序列;其中,0≤t<k;
判断子单元,用于判断各拼接点t是否符合预置条件,以得到对应的判断结果;所述预置条件包括:所述拼接点t对应的第一字符序列存在于所述预置词典中、或者所述拼接点t对应的第一字符序列的组成字符为字母和/或数字,且前t个连续字符能够成功拼接;
F(k)获取子单元,用于依据所述判断结果、及所述拼接点t对应的F(t),得到F(k)。
可选地,所述F(k)获取子单元包括:
第一F(k)获取单元,用于从符合预置条件的所有拼接点t对应的F(t)中获取最小的F(t),依据所述最小的F(t)得到F(k)。
可选地,所述递推单元还包括:
记录子单元,用于将所述最小的F(t)对应的拼接点作为F(k)对应的回溯拼接点进行记录,以得到相应的记录内容。
可选地,所述切分结果获取单元包括:
回溯子单元,用于对F(k)对应的回溯拼接点进行回溯,以得到所述字符序列集合对应最大子集的拼接所需词汇的最小数量对应的回溯拼接点;
切分子单元,用于依据所述字符序列集合对应最大子集的拼接所需词汇的最小数量对应的回溯拼接点,对所述目标词汇进行切分,以得到对应的切分结果。
可选地,所述回溯子单元包括:
第一回溯单元,用于从记录内容中获取F(k)对应的第一回溯拼接点P1;
第二回溯单元,用于获取第一回溯拼接点P1对应的F(P1),并从记录内容中获取F(P1)对应的第二回溯拼接点P2。
可选地,所述装置还包括:用于构建所述预置词典的词典构建模块;
所述词典构建模块包括:
统计子模块,用于对预置语料中词汇的出现次数进行统计;
选取子模块,用于依据统计得到的出现次数,从所述预置语料中选取待保存词汇,并将所述待保存词汇保存至所述预置词典中。
再一方面,本发明公开了一种用于分词的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取待分词文本对应的分词序列;
从所述分词序列中获取未存在于预置词典中的目标词汇;所述预置词典用于存储词汇;
依据所述预置词典对所述目标词汇进行切分处理,以得到对应的切分结果。
本发明实施例包括以下优点:
本发明实施例可以从待分词文本对应的分词序列中获取未存在于预置词典中的目标词汇,并依据所述预置词典对所述目标词汇进行切分处理,以得到对应的切分结果;由于待分词文本对应的分词序列为对待分词文本进行分词处理得到的结果,上述分词序列中可能存在机器翻译装置无法翻译的词汇,而本发明实施例的上述切分处理能够起到分词序列中目标词汇的二次切分作用,也即,上述切分处理能够将现有的分词方法无法切分的词汇切开,因此能够提高分词结果的准确率,进而提高翻译结果的准确率。
以待分词文本“左边的词大家都看到了吗”为例,可以通过分词方法对该待分词文本切分,得到分词序列:“左边”、“的”、“词大家”、“都”、“看到”、“了”、“吗”,则本发明实施例可以获取未存在于预置词典中的目标词汇“词大家”,并将“词大家”进一步切分为“词”和“大家”,使得机器翻译装置依据“词”和“大家”为粒度进行翻译,进而提高翻译结果的准确率。
附图说明
图1是本发明的一种分词方法实施例的步骤流程图;
图2是本发明的一种分词装置实施例的结构框图;
图3是根据一示例性实施例示出的一种用于信息处理的装置作为终端时的框图;及
图4是根据一示例性实施例示出的一种用于信息处理的装置作为服务器时的框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明实施例提供了一种分词方案,该方案可以从待分词文本对应的分词序列中获取未存在于预置词典中的目标词汇,并依据所述预置词典对所述目标词汇进行切分处理,以得到对应的切分结果;由于待分词文本对应的分词序列为对待分词文本进行分词处理得到的初步分词结果,上述分词序列中可能存在机器翻译装置无法翻译的词汇,而本发明实施例的上述切分处理能够起到分词序列中目标词汇的二次切分作用,也即,上述切分处理能够将分词方法无法切分的目标词汇切开,因此能够提高分词结果的准确率,进而提高翻译结果的准确率。
方法实施例
参照图1,示出了本发明的一种分词方法实施例的步骤流程图,具体可以包括如下步骤:
步骤101、获取待分词文本对应的分词序列;
步骤102、从所述分词序列中获取未存在于预置词典中的目标词汇;所述预置词典用于存储词汇;
步骤103、依据所述预置词典对所述目标词汇进行切分处理,以得到对应的切分结果。
本发明实施例提供的分词方法可应用于终端或者服务器等计算设备的应用环境中。可选地,上述终端可以包括但不限于:智能手机、平板电脑、膝上型便携计算机、车载电脑、台式计算机、智能电视机、可穿戴设备等等。上述服务器可以为云服务器或者普通服务器,用于向客户端提供待分词文本的分词服务。
本发明实施例提供的分词方法可适用于中文、日文、韩文等语言的分词处理,用于提高分词结果的准确率。可以理解,任意的需要进行分词处理的语言(如单字之间没有空格的语言)均在本发明实施例的分词方法的适用范围内。
本发明实施例中,待分词文本可用于表示需要进行分词处理的文本,该待分词文本可以来源于用户通过计算设备输入的文本或者语音,也可以来自其他计算设备。分词序列可用于表示待分词文本对应的初步分词结果。需要说明的是,上述待分词文本中可以包括:一种语言、或者一种以上的语言,例如,上述待分词文本中可以包括中文,也可以包括中文与例如英文的其他语言的混合,本发明实施例对具体的待分词文本不加以限制。
另外,本发明实施例的分词序列中可以包括若干个词汇。这里,词汇可以指一种语言中所有的(或特定范围的)词和固定短语的总和,可选地,本发明实施例的词汇可以包括:单词和/或词组。
在实际应用中,本发明实施例的计算设备可以从其他计算设备获取待分词文本或者待分词文本对应的分词序列。或者,本发明实施例的计算设备可以通过客户端应用执行本发明实施例的分词方法流程,客户端应用可以运行在计算设备上,例如,该客户端应用可以为智能终端上运行的任意APP,则该客户端应用可以从计算设备的其他应用获取待分词文本或者待分词文本对应的分词序列。或者,本发明实施例的计算设备可以通过客户端应用的功能装置执行本发明实施例的分词方法流程,则该功能装置可以从其他功能装置获取待分词文本或者待分词文本对应的分词序列。
在本发明的一种应用示例中,本发明实施例的计算设备可以从用户或者其他计算设备接收待分词文本,并利用分词方法对该待分词文本进行处理,以得到对应的分词序列。可选地,所采用的分词方法具体可以包括:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法等。可以理解,本发明实施例对于将待分词文本分词为分词序列的具体分词方法、以及步骤101获取待分词文本对应的分词序列的具体方式不加以限制。
本发明实施例中,预置词典可用于存储对应语言的词汇。该预置词典中存储的词汇可以源自已有的词典,也可以源自预置语料。以中文为例,可以从例如《新华词典》《现代汉语词典》《现代汉语规范词典》等已有的词典中获取目标词汇,并将该目标词汇保存至该预置词典中。
在本发明的一种可选实施例中,上述预置词典可以为翻译词典,这里,翻译词典也即用于翻译的词典,其可用于将源语言的词汇翻译为目标语言的词汇,通常若分词词汇所包含的词汇在该翻译词典中,则该翻译词典可实现对于该词汇的翻译,反之,若分词词汇所包含的词汇未存在于该翻译词典中,则该翻译词典无法实现对于该词汇的翻译,因此,需要本发明实施例对未存在于该翻译词典中的词汇进行切分处理,以提高分词结果和翻译结果的准确率。可以理解,本发明实施例的翻译词典可以为分词词汇所对应语言所适用的任意翻译词典,本发明实施例对于具体的翻译词典不加以限制。
在本发明的一种可选实施例中,可以通过如下步骤构建所述预置词典;对预置语料中词汇的出现次数进行统计;依据统计得到的出现次数,从所述预置语料中选取待存储词汇,并将所述待存储词汇保存至所述预置词典中。
在实际应用中,上述预置语料具体可以包括:基于网络爬虫技术获取的互联网语料库、云计算输入法积累的语料库;另外,所述互联网语料库可以为互联网博客语料库、互联网新闻语料库和/或互联网论坛语料库等等。其中,上述云计算输入法积累的语料库可以源自全网用户的历史输入行为数据,可以理解,本发明实施例对具体的预置语料不加以限制。
上述依据统计得到的出现次数,从所述预置语料中选取目标词汇的步骤,可以包括:依据统计得到的出现次数对预置语料中词汇进行从大到小的排序,并依据对应的排序结果,选取排在前P位的词汇,作为目标词汇;或者,可以依据统计得到的出现次数,统计各词汇的出现频率(出现次数与词汇的总数的比值),并选取出现频率超过频率阈值的词汇,作为目标词汇。其中,P为正整数,本领域技术人员可以根据实际应用需求确定P,例如,可以依据预置词典的容量确定P,P可以为预置词典的容量与已收集词汇的数量之间的差值,例如,P可以为100000等,可以理解,本发明实施例对于具体的P及构建预置词典的具体方式不加以限制。
本发明实施例中,待分词文本对应的分词序列可看作是由许多词汇组成的一个词串,记作S={S1,S2,…,SN},其中,Si表示分词序列中第i个词汇,i为正整数,N表示分词序列所包含词汇的数目。
在本发明的一种可选实施例中,步骤102可以依据该分词序列包含的各词汇Si,在上述预置词典中进行查找,若查找命中,则认为该词汇Si存在于预置词典中,否则,若查找未命中,则认为该词汇Si未存在于预置词典中,也即,查找未命中对应的词汇Si为目标词汇。可选地,如果一个词汇Si存在于预置词典D中,则D(Si)=true,否则D(Si)=false。
步骤103可以依据所述预置词典对所述目标词汇进行切分处理,以得到对应的切分结果。其中,上述切分处理的过程可以包括:利用所述预置词典中存储的词汇,拼接得到所述目标词汇,以将所述目标词汇的拼接所需的词汇作为对应的切分结果。假设目标词汇Si可由预置词典中Q个词汇组成,则目标词汇Si的切分结果可以包括该Q个词汇,其中,Q为正整数。
在本发明的一种可选实施例中,假设目标词汇Si由M个字符Cj(1<=j<=M)组成,则可以按照从前到后、或者从后到前的顺序,将目标词汇Si所包括的连续字符与上述预置词典中的词汇进行匹配,若匹配成功,则可以将该目标词汇Si中除了该匹配成功的第一连续字符之外的第二连续字符与上述预置词典中的词汇进行匹配,若匹配成功,则可以得到目标词汇Si的切分结果:第一连续字符和第二连续字符。可以理解,本领域技术人员可以根据实际应用需求,采用任意方法依据所述预置词典对所述目标词汇进行切分处理,本发明实施例的一个目的在于,通过上述切分处理将分词方法无法切分的目标词汇切开,而对具体的切分处理方法不加以限制。
在经过本发明实施例的切分处理后,待分词文本对应的最终分词结果可以包括:存在于预置词典中的词汇、以及未存在于预置词典中的目标词汇对应的切分结果。可选地,本发明实施例可以在计算设备上输出该待分词文本对应的最终分词结果,也可以将待分词文本对应的最终分词结果输出给其他计算设备。也即,在本发明的一种可选实施例中,可以接收待分词文本,首先利用分词方法对待分词文本进行分词处理,以得到对应的分词序列;然后从所述分词序列中获取未存在于预置词典中的目标词汇;接着依据所述预置词典对所述目标词汇进行切分处理,以得到对应的切分结果;最后输出待分词文本对应的最终分词结果,该最终分词结果可以包括:存在于预置词典中的词汇、以及未存在于预置词典中的目标词汇对应的切分结果。
在本发明的一种可选实施例中,上述依据所述预置词典对所述目标词汇进行切分处理的步骤103,具体可以包括:从所述预置词典中获取所述目标词汇的拼接所需的最小数量的词汇,将所述最小数量的词汇作为所述目标词汇对应的切分结果。由于目标词汇的切分结果为该目标词汇的拼接所需的最小数量的词汇,也即,该目标词汇的拼接所需的词汇数量最少,因此能够有效避免目标词汇被切分为单字或者不完整词汇的情况,进而提高目标词汇的切分结果的准确率和翻译结果的准确率。
在此通过一个具体的示例说明目标词汇的拼接所需的最小数量的词汇的情形。假设采用一位大写字母代表一个汉字,且目标词汇“AABBCD”所包含连续单字的查找结果如下:D(AABBCD)=false,D(AA)=true,D(BB)=true,D(CD)=true,D(A)=true,D(ABBCD)=true,其余连续单字的查找结果为false,则按照拼接所需的词汇数量最小的原则,可以将目标词汇“AABBCD”切分为A|ABBCD;因为虽然可以将目标词汇“AABBCD”切分为AA|BB|CD,但此种情况下切分结果包括的词汇数量不是最少的,此种情况下“BB”和“CD”被切分开,则分别使用“BB”和“CD”进行翻译得到的翻译结果的准确率将小于使用“ABBCD”进行翻译得到的翻译结果的准确率。
在实际应用中,本领域技术人员可以采用任意方法,从所述预置词典中获取所述目标词汇的拼接所需的最小数量的词汇。例如,可以枚举所述目标词汇的所有拼接方案,并依据各拼接方案所需词汇的数量,从所有拼接方案中选择数量最小的一种拼接方案,可以理解,本发明实施例对于从所述预置词典中获取所述目标词汇的拼接所需的最小数量的词汇的具体过程不加以限制。
在本发明的一种可选实施例中,所述从所述预置词典中获取所述目标词汇的拼接所需的最小数量的词汇的步骤,具体可以包括:利用动态规划算法,从所述预置词典中获取所述目标词汇的拼接所需的最小数量的词汇。上述动态规划具体指,通过拆分问题,定义问题状态和状态之间的关系,使得问题能够以递推(或者说分治)的方式去解决。
具体到本发明实施例,问题可以为目标词汇的拼接所需的最小数量的词汇,状态可以为目标词汇对应的字符序列集合的各子集的拼接所需词汇的最小数量。相应地,上述利用动态规划算法,从所述预置词典中获取所述目标词汇的拼接所需的最小数量的词汇的步骤,具体可以包括:获取所述目标词汇对应的字符序列集合;按照所述字符序列集合的子集从小到大的顺序,通过递推方式确定各子集的拼接所需词汇的最小数量、以及对应的回溯拼接点;依据所述字符序列集合的各子集的拼接所需词汇的最小数量、以及对应的回溯拼接点,得到所述目标词汇对应的切分结果。
其中,上述字符序列集合可用于表示所述目标词汇所包含的连续字符组成的序列的集合,可选地,上述字符序列集合所包括的字符序列可由目标词汇的前k个连续字符组成,例如,目标词汇“C1C2…CM”对应的字符序列集合可以包括:{C1,C1C2,C1C2C3,…,C1C2…CM},该字符序列集合所包含的子集按照序列长度(也即序列包含字符的数量)从小到大的顺序可以表示为:{C1}、{C1C2}、{C1C2C3}…{C1C2…CM},可选地,本发明实施例的子集可以包含一个字符序列。
对于字符序列集合的各子集而言,其对应字符序列的拼接也需要若干个字符,本发明实施例可以确定各子集的拼接所需词汇的最小数量。并且,子集的拼接所需词汇的最小数量对应的拼接点可用于表示子集对应的字符序列在哪个位置点被切分。假设子集{C1C2C3}的拼接所需词汇的最小数量为2,{C1C2C3}的拼接所需词汇包括:“C1”和“C2C3”,则说明{C1C2C3}是在“C1”处被切分,相应的拼接点可以表示为“C1”的编号1,可以理解,本发明实施例对于拼接点的具体表示方式不加以限制。另外,子集的拼接所需词汇的最小数量对应的回溯拼接点可用于表示在确定当前子集的拼接所需词汇的最小数量的过程中、所依据的之前子集对应的拼接点,后续将对该回溯拼接点进行详细说明。
本发明实施例可以按照所述字符序列集合的子集从小到大的顺序,通过递推方式确定各子集的拼接所需词汇的最小数量、以及对应的回溯拼接点,假设按照所述字符序列集合的子集从小到大的顺序将各子集表示为:G1、G2、G3…Gu,则可以依次获取G1、G2、G3…Gu的拼接所需词汇的最小数量、以及对应的回溯拼接点;并且,对于Go(1≤o≤u)而言,需要Go之前的子集(如Go-1、Go-2等)的确定结果,确定Go的拼接所需词汇的最小数量、以及对应的回溯拼接点。
在本发明的一种可选实施例中,所述字符序列集合的子集可以包括:所述字符序列集合中的前k个连续字符,前k个连续字符的拼接所需词汇的最小数量可以表示为F(k),0≤k≤所述目标词汇的字符个数M,则所述按照所述字符序列集合的子集从小到大的顺序,通过递推方式确定各子集的拼接所需词汇的最小数量的步骤,具体可以包括:
对所述前k个连续字符对应的拼接点t进行遍历,以得到始于所述拼接点t止于第k个连续字符的第一字符序列;其中,0≤t<k;
判断各拼接点t是否符合预置条件,以得到对应的判断结果;所述预置条件包括:所述拼接点t对应的第一字符序列存在于所述预置词典中、或者所述拼接点t对应的第一字符序列的组成字符为字母和/或数字,且前t个连续字符能够成功拼接;
依据所述判断结果、及所述拼接点t对应的F(t),得到F(k)。
其中,始于所述拼接点t止于第k个连续字符的第一字符序列可以表示为“Ct+1,Ct+2,...,Ck”,D(Ct+1,Ct+2,...,Ck)=true或者“Ct+1,Ct+2,...,Ck”全由英文字母或数字组成,则说明“Ct+1,Ct+2,...,Ck”无需继续被切分。例如,若D(天气)=true,则说明“天气”为预置词典中存在的词汇,无需被切分,或者,对于中文的分词而言,“google”、“SARS”、“10086”、“H7N9”无需被切分。
本发明实施例中,可以通过多种方式表示前t个连续字符是否能够成功拼接,例如,可以针对F(t)设置对应的状态位,当前t个连续字符能够成功拼接时,对应的状态位可以为1,反之,当前t个连续字符不能够成功拼接时,对应的状态位可以为0。或者,当前t个连续字符不能够成功拼接时,将其对应的F(t)设置在预设范围内等,例如,当F(t)为预设值时,可表示前t个连续字符不能够成功拼接。可以理解,该预设值可以为与拼接成功的F(t)不冲突的任意值,例如,该预设值可以为负数、小数或者很大的正数等,本发明实施例对于具体的预设值不加以限制。
因此,本发明实施例中,在拼接点t对应的第一字符序列存在于所述预置词典中,且前t个连续字符能够成功拼接时,认为F(t)对应切分为有效切分,故可将F(t)作为有效的F(t)用于F(k)的计算。
在本发明的一种可选实施例中,所述依据所述判断结果、及所述拼接点t对应的F(t),得到F(k)的步骤,可以进一步包括:从符合预置条件的所有拼接点t对应的F(t)中获取最小的F(t),依据所述最小的F(t)得到F(k)。例如,F(k)可以等于最小的F(t)加1。
在本发明的一种可选实施例中,所述依据所述判断结果、及所述拼接点t对应的F(t),得到F(k)的步骤,可以进一步包括:当不存在符合预置条件的拼接点t时,说明前k个连续字符不能够成功拼接,则可以将F(k)置为预设值,所述预设值用于表示前k个连续字符不能够成功拼接;或者,针对F(t)设置对应的状态位,例如,将对应的状态位设置为0。
在本发明的另一种可选实施例中,所述按照所述字符序列集合的子集从小到大的顺序,通过递推方式确定各子集的拼接所需词汇的最小数量对应的回溯拼接点的步骤,还可以包括:将所述最小的F(t)对应的拼接点作为F(k)对应的回溯拼接点进行记录,以得到相应的记录内容。其中,F(k)对应的回溯拼接点可用于表示当前k个连续字符的拼接所需词汇最少时、所依据的之前子集的拼接点,本可选实施例将F(k)对应的回溯拼接点进行记录,记录得到的记录内容可以作为F(M)对应的回溯拼接点的获取依据。
在本发明的再一种可选实施例中,所述依据所述字符序列集合的各子集的拼接所需词汇的最小数量、以及对应的回溯拼接点,得到所述目标词汇对应的切分结果的步骤,可以包括:
对F(k)对应的回溯拼接点进行回溯,以得到所述字符序列集合对应最大子集的拼接所需词汇的最小数量对应的回溯拼接点;这里,所述字符序列集合对应最大子集也即前M个连续字符组成的目标词汇;
依据所述字符序列集合对应最大子集的拼接所需词汇的最小数量对应的回溯拼接点,对所述目标词汇进行切分,以得到对应的切分结果。
可选地,所述对F(k)对应的回溯拼接点进行回溯的步骤,可以包括:从记录内容中获取F(k)对应的第一回溯拼接点P1;获取第一回溯拼接点P1对应的F(P1),并从记录内容中获取F(P1)对应的第二回溯拼接点P2。其中,可以按照k从大到小的顺序进行回溯拼接点的回溯,以F(M)对应的回溯拼接点的获取过程为例,可以首先确定前M个字符的拼接所需词汇最少时、所依据的之前子集的回溯拼接点P1,其中,前P1个连续字符能够成功拼接、且拼接所需词汇的数量最小,然后,从记录内容中获取F(P1)对应的第二回溯拼接点P2,其中,前P2个连续字符能够成功拼接、且拼接所需词汇的数量最小,若P1或者P2等于0,则可以结束回溯,否则,若P1或者P2不等于0,则可以继续回溯。
为使本领域技术人员更好地理解本发明实施例的切分处理过程,在此通过示例1说明本发明实施例的切分处理过程,该示例涉及对目标词汇“今天天气”进行切分处理,相应的切分处理过程具体可以包括如下步骤:
步骤S1、获取目标词汇对应的字符序列集合{C1,C1C2,C1C2C3,C1C2C3C4},其中,C1为“今”,C2为“天”,C3为“天”,C4为“气”;
步骤S2、采用F(k)表示前k个连续字符的拼接所需词汇的最小数量,当k=0时,获取前0个连续字符的拼接所需词汇的最小数量0,也即F(0)=0;
步骤S3、当k=1时,对应的拼接点t=0,由于C1不存在于预置词典中,故认为t=0不符合预置条件,故F(1)=-1;
步骤S4、当k=2时,对应的拼接点t=0、以及t=1;
其中,当t=0时,由于F(0)=0,且对应的第一字符序列C1C2存在于预置词典中,故认为t=0符合预置条件,F(0)对应有效切分,也即F(0)有效;
当t=1时,由于F(1)=-1,且C2不存在于预置词典中,故认为t=1不符合预置条件,也即F(1)无效;
因此,存在符合预置条件的t=0,故F(2)=F(0)+1=1,并记录所依据的回溯拼接点t=0。
步骤S5、当k=3时,对应的拼接点t=0、t=1、以及t=2;
其中,当t=0时,由于F(0)=0,且C1C2C3不存在于预置词典中,故认为t=0不符合预置条件,F(0)无效;
当t=1时,由于F(1)=-1,故认为t=1不符合预置条件,F(1)无效;
当t=2时,由于F(2)=1,且C2C3不存在于预置词典中,故认为t=2不符合预置条件,F(2)无效;
因此,不存在符合预置条件的t,故F(3)=-1
步骤S6、当k=4时,对应的拼接点t=0、t=1、t=2、以及t=3;
其中,当t=0时,由于F(0)=0,且C1C2C3C4不存在于预置词典中,则认为t=0无效,也即F(0)无效;
当t=1时,由于F(1)=-1,故认为t=1无效,F(1)无效;
当t=2时,由于F(2)=1,且C3C4存在于预置词典中,故认为t=2符合预置条件,F(2)有效;
当t=3时,由于F(3)=-1,故认为t=3不符合预置条件,F(3)无效;
因此,存在有效的t=2,F(4)=F(2)+1=1,并记录所依据的回溯拼接点t=0;
步骤S7、对F(4)对应的回溯拼接点进行回溯;
其中,可以首先获得F(4)对应的回溯拼接点t=2,然后获得F(2)对应的回溯拼接点t=0,也即,“今天天气”可被切分为2个词汇,对应的回溯拼接点分别为:t=0、以及t=2,也即,切分得到的2个词汇分别位于第0个单字、以及第2个单字之后,故可以得到对应的切分结果“今天”和“天气”。
为使本领域技术人员更好地理解本发明实施例的切分处理过程,在此通过示例2说明本发明实施例的切分处理过程,该示例涉及对目标词汇“词大家”进行切分处理,相应的切分处理过程具体可以包括如下步骤:
步骤T1、获取目标词汇对应的字符序列集合{C1,C1C2,C1C2C3},其中,C1为“词”,C2为“大”,C3为“家”;
步骤T2、采用F(k)表示前k个连续字符的拼接所需词汇的最小数量,当k=0时,获取前0个连续字符的拼接所需词汇的最小数量0,也即F(0)=0;
步骤T3、当k=1时,对应的拼接点t=0,由于C1存在于预置预置词典中,且F(0)=0,故t=0符合预置条件,F(0)有效,进而F(1)=F(0)+1=1,并记录所依据的回溯拼接点t=0;
步骤T4、当k=2时,对应的拼接点t=0、以及t=1;
其中,当t=0时,由于F(0)=0,且C1C2不存在于预置词典中,故认为t=0不符合预置条件,F(0)无效;
当t=1时,由于F(1)=1,且C2不存在于预置词典中,故认为t=1不符合预置条件,F(1)无效;
因此,不存在符合预置条件的t,F(2)=-1。
步骤T5、当k=3时,对应的拼接点t=0、t=1、以及t=2;
其中,当t=0时,由于F(0)=0,且C1C2C3不存在于预置词典中,故认为t=0不符合预置条件,F(0)无效;
当t=1时,由于F(1)=1,且C2C3存在于预置词典中,故认为t=1符合预置条件,F(1)有效;
当t=2时,由于F(2)=-1,故认为t=2不符合预置条件,F(2)无效;
因此,存在符合预置条件的t=1,故F(3)=F(1)+1=1,并记录所依据的回溯拼接点t=1;
步骤T6、对F(3)对应的回溯拼接点进行回溯;
其中,可以首先获得F(3)对应的回溯拼接点t=1,然后获得F(1)对应的回溯拼接点t=0,也即,“词大家”可被切分为2个词汇,对应的回溯拼接点分别为:t=0、以及t=1,也即,切分得到的2个词汇分别位于第0个单字、以及第1个单字之后,故可以得到对应的切分结果“词”和“大家”。
可以看出,本发明实施例的切分处理过程能够目标词汇的拼接使用的词汇数量最少,能够有效避免目标词汇被切分为单字的情况,因此能够提高切分结果的准确性。
综上,本发明实施例可以从待分词文本对应的分词序列中获取未存在于预置词典中的目标词汇,并依据所述预置词典对所述目标词汇进行切分处理,以得到对应的切分结果;由于待分词文本对应的分词序列为对待分词文本进行分词处理得到的结果,上述分词序列中可能存在机器翻译装置无法翻译的词汇,而本发明实施例的上述切分处理能够起到分词序列中目标词汇的二次切分作用,也即,上述切分处理能够将分词方法无法切分的词汇切开,因此能够提高分词结果的准确率,进而提高翻译结果的准确率。
以待分词文本“左边的词大家都看到了吗”为例,可以通过现有的分词方法对该待分词文本切分,得到分词序列:“左边”、“的”、“词大家”、“都”、“看到”、“了”、“吗”,其中,机器翻译装置无法对“词大家”进行翻译,而本发明实施例可以获取未存在于预置词典中的目标词汇“词大家”,并将“词大家”进一步切分为“词”和“大家”,使得机器翻译装置依据“词”和“大家”为粒度进行翻译,进而提高翻译结果的准确率。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的运动动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的运动动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的运动动作并不一定是本发明实施例所必须的。
装置实施例
参照图2,示出了本发明的一种分词装置实施例的结构框图,具体可以包括:分词序列获取模块201、目标词汇获取模块202、以及切分处理模块203。
其中,分词序列获取模块201,用于获取待分词文本对应的分词序列;
目标词汇获取模块202,用于从所述分词序列中获取未存在于预置词典中的目标词汇;所述预置词典用于存储词汇;以及
切分处理模块203,用于依据所述预置词典对所述目标词汇进行切分处理,以得到对应的切分结果。
可选地,所述切分处理模块203可以包括:
最小切分子模块,用于从所述预置词典中获取所述目标词汇的拼接所需的最小数量的词汇,将所述最小数量的词汇作为所述目标词汇对应的切分结果。
可选地,所述最小切分子模块可以包括:
动态规划单元,用于利用动态规划算法,从所述预置词典中获取所述目标词汇的拼接所需的最小数量的词汇
可选地,所述动态规划单元可以包括:
集合获取单元,用于获取所述目标词汇对应的字符序列集合;
递推单元,用于按照所述字符序列集合的子集从小到大的顺序,通过递推方式确定各子集的拼接所需词汇的最小数量、以及对应的回溯拼接点;
切分结果获取单元,用于依据所述字符序列集合的各子集的拼接所需词汇的最小数量、以及对应的回溯拼接点,得到所述目标词汇对应的切分结果。
可选地,所述字符序列集合的子集可以包括:所述字符序列集合中的前k个连续字符,前k个连续字符的拼接所需词汇的最小数量表示为F(k),0≤k≤所述字符序列集合的长度M,则所述递推单元可以包括:
遍历子单元,用于对所述前k个连续字符对应的拼接点t进行遍历,以得到始于所述拼接点t止于第k个连续字符的第一字符序列;其中,0<=t<k;
判断子单元,用于判断各拼接点t是否符合预置条件,以得到对应的判断结果;所述预置条件可以包括:所述拼接点t对应的第一字符序列存在于所述预置词典中、或者所述拼接点t对应的第一字符序列的组成字符为字母和/或数字,且前t个连续字符能够成功拼接;
F(k)获取子单元,用于依据所述判断结果、及所述拼接点t对应的F(t),得到F(k)。
可选地,所述F(k)获取子单元可以包括:
第一F(k)获取单元,用于从符合预置条件的所有拼接点t对应的F(t)中获取最小的F(t),依据所述最小的F(t)得到F(k)。
可选地,所述递推单元还可以包括:
记录子单元,用于将所述最小的F(t)对应的拼接点作为F(k)对应的回溯拼接点进行记录,以得到相应的记录内容。
可选地,所述切分结果获取单元可以包括:
回溯子单元,用于对F(k)对应的回溯拼接点进行回溯,以得到所述字符序列集合对应最大子集的拼接所需词汇的最小数量对应的回溯拼接点;
切分子单元,用于依据所述字符序列集合对应最大子集的拼接所需词汇的最小数量对应的回溯拼接点,对所述目标词汇进行切分,以得到对应的切分结果。
可选地,所述回溯子单元可以包括:
第一回溯单元,用于从记录内容中获取F(k)对应的第一回溯拼接点P1;
第二回溯单元,用于获取第一回溯拼接点P1对应的F(P1),并从记录内容中获取F(P1)对应的第二回溯拼接点P2。
可选地,所述装置还可以包括:用于构建所述预置词典的词典构建模块;
所述词典构建模块可以包括:
统计子模块,用于对预置语料中词汇的出现次数进行统计;
选取子模块,用于依据统计得到的出现次数,从所述预置语料中选取待保存词汇,并将所述待保存词汇保存至所述预置词典中。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图3是根据一示例性实施例示出的一种用于信息处理的装置作为终端时的框图。例如,该终端900可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图3,终端900可以包括以下一个或多个组件:处理组件902,存储器904,电源组件906,多媒体组件908,音频组件910,输入/输出(I/O)的接口912,传感器组件914,以及通信组件916。
处理组件902通常控制终端900的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件902可以包括一个或多个处理器920来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件902可以包括一个或多个模块,便于处理组件902和其他组件之间的交互。例如,处理组件902可以包括多媒体模块,以方便多媒体组件908和处理组件902之间的交互。
存储器904被配置为存储各种类型的数据以支持在终端900的操作。这些数据的示例包括用于在终端900上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件906为终端900的各种组件提供电力。电源组件906可以包括电源管理系统,一个或多个电源,及其他与为终端900生成、管理和分配电力相关联的组件。
多媒体组件908包括在所述终端900和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动运动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件908包括一个前置摄像头和/或后置摄像头。当终端900处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件910被配置为输出和/或输入音频信号。例如,音频组件910包括一个麦克风(MIC),当终端900处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中,音频组件910还包括一个扬声器,用于输出音频信号。
I/O接口912为处理组件902和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件914包括一个或多个传感器,用于为终端900提供各个方面的状态评估。例如,传感器组件914可以检测到终端900的打开/关闭状态,组件的相对定位,例如所述组件为终端900的显示器和小键盘,传感器组件914还可以检测终端900或终端900一个组件的位置改变,用户与终端900接触的存在或不存在,终端900方位或加速/减速和终端900的温度变化。传感器组件914可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件914还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件916被配置为便于终端900和其他设备之间有线或无线方式的通信。终端900可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件916还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,终端900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器904,上述指令可由终端900的处理器920执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由终端的处理器执行时,使得终端能够执行一种分词方法,所述方法包括:获取待分词文本对应的分词序列;从所述分词序列中获取未存在于预置词典中的目标词汇;所述预置词典用于存储词汇;依据所述预置词典对所述目标词汇进行切分处理,以得到对应的切分结果。
图4是根据一示例性实施例示出的一种用于信息处理的装置作为服务器时的框图。该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列指令操作。
服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作系统1941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器1932,上述指令可由服务器1900的处理器1922执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由服务器的处理器执行时,使得服务器能够执行一种分词方法,所述方法包括:获取待分词文本对应的分词序列;从所述分词序列中获取未存在于预置词典中的目标词汇;所述预置词典用于存储词汇;依据所述预置词典对所述目标词汇进行切分处理,以得到对应的切分结果。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
以上对本发明所提供的一种分词方法、一种分词装置、以及一种用于分词的装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (12)
1.一种分词方法,其特征在于,包括:
获取待分词文本对应的分词序列;
从所述分词序列中获取未存在于预置词典中的目标词汇;所述预置词典用于存储词汇;
依据所述预置词典对所述目标词汇进行切分处理,以得到对应的切分结果。
2.根据权利要求1所述的方法,其特征在于,所述依据所述预置词典对所述目标词汇进行切分处理的步骤,包括:
从所述预置词典中获取所述目标词汇的拼接所需的最小数量的词汇,将所述最小数量的词汇作为所述目标词汇对应的切分结果。
3.根据权利要求2所述的方法,其特征在于,所述从所述预置词典中获取所述目标词汇的拼接所需的最小数量的词汇的步骤,包括:
利用动态规划算法,从所述预置词典中获取所述目标词汇的拼接所需的最小数量的词汇。
4.根据权利要求3所述的方法,其特征在于,所述利用动态规划算法,从所述预置词典中获取所述目标词汇的拼接所需的最小数量的词汇的步骤,包括:
获取所述目标词汇对应的字符序列集合;
按照所述字符序列集合的子集从小到大的顺序,通过递推方式确定各子集的拼接所需词汇的最小数量、以及对应的回溯拼接点;
依据所述字符序列集合的各子集的拼接所需词汇的最小数量、以及对应的回溯拼接点,得到所述目标词汇对应的切分结果。
5.根据权利要求4所述的方法,其特征在于,所述字符序列集合的子集包括:所述字符序列集合中的前k个连续字符,前k个连续字符的拼接所需词汇的最小数量表示为F(k),0≤k≤所述目标词汇的字符个数M,则所述按照所述字符序列集合的子集从小到大的顺序,通过递推方式确定各子集的拼接所需词汇的最小数量的步骤,包括:
对所述前k个连续字符对应的拼接点t进行遍历,以得到始于所述拼接点t止于第k个连续字符的第一字符序列;其中,0≤t<k;
判断各拼接点t是否符合预置条件,以得到对应的判断结果;所述预置条件包括:所述拼接点t对应的第一字符序列存在于所述预置词典中、或者所述拼接点t对应的第一字符序列的组成字符为字母和/或数字,且前t个连续字符能够成功拼接;
依据所述判断结果、及所述拼接点t对应的F(t),得到F(k)。
6.根据权利要求5所述的方法,其特征在于,所述依据所述判断结果、及所述拼接点t对应的F(t),得到F(k)的步骤,包括:
从符合预置条件的所有拼接点t对应的F(t)中获取最小的F(t),依据所述最小的F(t)得到F(k)。
7.根据权利要求6所述的方法,其特征在于,所述按照所述字符序列集合的子集从小到大的顺序,通过递推方式确定各子集的拼接所需词汇的最小数量对应的回溯拼接点的步骤,还包括:
将所述最小的F(t)对应的拼接点作为F(k)对应的回溯拼接点进行记录,以得到相应的记录内容。
8.根据权利要求7所述的方法,其特征在于,所述依据所述字符序列集合的各子集的拼接所需词汇的最小数量、以及对应的回溯拼接点,得到所述目标词汇对应的切分结果的步骤,包括:
对F(k)对应的回溯拼接点进行回溯,以得到所述字符序列集合对应最大子集的拼接所需词汇的最小数量对应的回溯拼接点;
依据所述字符序列集合对应最大子集的拼接所需词汇的最小数量对应的回溯拼接点,对所述目标词汇进行切分,以得到对应的切分结果。
9.根据权利要求8所述的方法,其特征在于,所述对F(k)对应的回溯拼接点进行回溯的步骤,包括:
从所述记录内容中获取F(k)对应的第一回溯拼接点P1;
获取第一回溯拼接点P1对应的F(P1),并从记录内容中获取F(P1)对应的第二回溯拼接点P2。
10.根据权利要求1至9中任一所述的方法,其特征在于,通过如下步骤构建所述预置词典;
对预置语料中词汇的出现次数进行统计;
依据统计得到的出现次数,从所述预置语料中选取待保存词汇,并将所述待保存词汇保存至所述预置词典中。
11.一种分词装置,其特征在于,包括:
分词序列获取模块,用于获取待分词文本对应的分词序列;
目标词汇获取模块,用于从所述分词序列中获取未存在于预置词典中的目标词汇;所述预置词典用于存储词汇;以及
切分处理模块,用于依据所述预置词典对所述目标词汇进行切分处理,以得到对应的切分结果。
12.一种用于分词的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取待分词文本对应的分词序列;
从所述分词序列中获取未存在于预置词典中的目标词汇;所述预置词典用于存储词汇;
依据所述预置词典对所述目标词汇进行切分处理,以得到对应的切分结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611030865.8A CN108073566B (zh) | 2016-11-16 | 2016-11-16 | 分词方法和装置、用于分词的装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611030865.8A CN108073566B (zh) | 2016-11-16 | 2016-11-16 | 分词方法和装置、用于分词的装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108073566A true CN108073566A (zh) | 2018-05-25 |
CN108073566B CN108073566B (zh) | 2022-01-18 |
Family
ID=62161276
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611030865.8A Active CN108073566B (zh) | 2016-11-16 | 2016-11-16 | 分词方法和装置、用于分词的装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108073566B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111291559A (zh) * | 2020-01-22 | 2020-06-16 | 中国民航信息网络股份有限公司 | 姓名文本处理方法及装置、存储介质及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020077816A1 (en) * | 2000-08-30 | 2002-06-20 | Ibm Corporation | Method and system for automatically extracting new word |
CN101079027A (zh) * | 2007-06-27 | 2007-11-28 | 腾讯科技(深圳)有限公司 | 一种中文分词方法及系统 |
US20080162118A1 (en) * | 2006-12-15 | 2008-07-03 | International Business Machines Corporation | Technique for Searching Out New Words That Should Be Registered in Dictionary For Speech Processing |
CN102479191A (zh) * | 2010-11-22 | 2012-05-30 | 阿里巴巴集团控股有限公司 | 提供多粒度分词结果的方法及其装置 |
CN103714053A (zh) * | 2013-11-13 | 2014-04-09 | 北京中献电子技术开发中心 | 一种面向机器翻译的日语动词识别方法 |
CN104252542A (zh) * | 2014-09-29 | 2014-12-31 | 南京航空航天大学 | 一种基于词库的动态规划中文分词方法 |
-
2016
- 2016-11-16 CN CN201611030865.8A patent/CN108073566B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020077816A1 (en) * | 2000-08-30 | 2002-06-20 | Ibm Corporation | Method and system for automatically extracting new word |
US20080162118A1 (en) * | 2006-12-15 | 2008-07-03 | International Business Machines Corporation | Technique for Searching Out New Words That Should Be Registered in Dictionary For Speech Processing |
CN101079027A (zh) * | 2007-06-27 | 2007-11-28 | 腾讯科技(深圳)有限公司 | 一种中文分词方法及系统 |
CN102479191A (zh) * | 2010-11-22 | 2012-05-30 | 阿里巴巴集团控股有限公司 | 提供多粒度分词结果的方法及其装置 |
CN103714053A (zh) * | 2013-11-13 | 2014-04-09 | 北京中献电子技术开发中心 | 一种面向机器翻译的日语动词识别方法 |
CN104252542A (zh) * | 2014-09-29 | 2014-12-31 | 南京航空航天大学 | 一种基于词库的动态规划中文分词方法 |
Non-Patent Citations (1)
Title |
---|
刘华 等: "汉语教学用话题库及话题分类影视资源库构建", 《世界汉语教学》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111291559A (zh) * | 2020-01-22 | 2020-06-16 | 中国民航信息网络股份有限公司 | 姓名文本处理方法及装置、存储介质及电子设备 |
CN111291559B (zh) * | 2020-01-22 | 2023-04-11 | 中国民航信息网络股份有限公司 | 姓名文本处理方法及装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN108073566B (zh) | 2022-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111145756B (zh) | 一种语音识别方法、装置和用于语音识别的装置 | |
CN107608532B (zh) | 一种联想输入方法、装置及电子设备 | |
EP3173948A1 (en) | Method and apparatus for recommendation of reference documents | |
CN107291690A (zh) | 标点添加方法和装置、用于标点添加的装置 | |
CN106789543A (zh) | 会话中实现表情图像发送的方法和装置 | |
CN105335754A (zh) | 文字识别方法及装置 | |
CN107564526B (zh) | 处理方法、装置和机器可读介质 | |
CN107291704B (zh) | 处理方法和装置、用于处理的装置 | |
CN108121736A (zh) | 一种主题词确定模型的建立方法、装置及电子设备 | |
CN109471919B (zh) | 零代词消解方法及装置 | |
CN108345581A (zh) | 一种信息识别方法、装置和终端设备 | |
CN107274903A (zh) | 文本处理方法和装置、用于文本处理的装置 | |
CN108628813A (zh) | 处理方法和装置、用于处理的装置 | |
CN108628819A (zh) | 处理方法和装置、用于处理的装置 | |
CN110069624A (zh) | 文本处理方法及装置 | |
CN105139848A (zh) | 数据转换方法和装置 | |
CN110930969B (zh) | 背景音乐的确定方法及相关设备 | |
CN113177419B (zh) | 文本改写方法、装置、存储介质及电子设备 | |
CN109002184A (zh) | 一种输入法候选词的联想方法和装置 | |
CN113936697B (zh) | 语音处理方法、装置以及用于语音处理的装置 | |
CN108628461A (zh) | 一种输入方法和装置、一种更新词库的方法和装置 | |
CN108073566A (zh) | 分词方法和装置、用于分词的装置 | |
CN110968246A (zh) | 中文智能手写输入识别方法及装置 | |
CN113923517B (zh) | 一种背景音乐生成方法、装置及电子设备 | |
CN110908523A (zh) | 一种输入方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |