CN110619122B - 分词处理方法、装置、设备及计算机可读存储介质 - Google Patents

分词处理方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN110619122B
CN110619122B CN201910886160.3A CN201910886160A CN110619122B CN 110619122 B CN110619122 B CN 110619122B CN 201910886160 A CN201910886160 A CN 201910886160A CN 110619122 B CN110619122 B CN 110619122B
Authority
CN
China
Prior art keywords
sentence
word segmentation
scanning area
word
scanning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910886160.3A
Other languages
English (en)
Other versions
CN110619122A (zh
Inventor
高翔
刘金财
于向丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN201910886160.3A priority Critical patent/CN110619122B/zh
Publication of CN110619122A publication Critical patent/CN110619122A/zh
Application granted granted Critical
Publication of CN110619122B publication Critical patent/CN110619122B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供一种分词处理方法、装置、设备及计算机可读存储介质。本发明的方法,通过从待处理语句的句首开始,对所述待处理语句依次进行多次扫描处理,每次扫描处理对当前的扫描区域进行同步分词处理确定当前的扫描区域的分词结果,直至完成对所述待处理语句全部内容的扫描处理,得到所述待处理语句对应的多个扫描区域的分词结果;对所述多个扫描区域的分词结果进行整合处理,得到所述待处理语句的全句分词结果,根据人在阅读语句时的实现行为定义了扫描区域,对扫描区域内的文本进行同步分词处理得到扫描区域的分词结果,而不是逐个字的分析,分词结果能够体现文本中上下文的关联关系,提高了分词处理的准确率和效率。

Description

分词处理方法、装置、设备及计算机可读存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种分词处理方法、装置、设备及计算机可读存储介质。
背景技术
分词方法是自然语言理解、搜索引擎、敏感词处理等许多方法的首要步骤,在电信运营商业务词汇种类和数量众多的情况下,现有分词方法在速度和分词精准度上很难做到平衡,这急需一个能够快速且准确处理电信运营商数据的分词方案。
现有的字典树分词等快速分词方法虽然可以在O(n)时间对句子进行快速分词,但是只单向匹配,太过绝对,尤其是电信运营商这类业务词汇较丰富的场景,会严重影响分词的结果,导致分词结果准确率低。通过神经网络计算的分词方法虽然能在准确率、未登录词识别上有更好的表现,但神经网络无法并行计算,逐字向后分析,分词效率低。
发明内容
本发明提供一种分词处理方法、装置、设备及计算机可读存储介质,用以解决现有的分词处理方法分词结果准确率低、分词效率低的问题。
本发明的一个方面是提供一种分词处理方法,包括:
从待处理语句的句首开始,对所述待处理语句依次进行多次扫描处理,每次扫描处理对当前的扫描区域进行同步分词处理确定当前的扫描区域的分词结果,直至完成对所述待处理语句全部内容的扫描处理,得到所述待处理语句对应的多个扫描区域的分词结果;
对所述多个扫描区域的分词结果进行整合处理,得到所述待处理语句的全句分词结果。
本发明的另一个方面是提供一种分词处理装置,包括:
扫描处理模块,用于从待处理语句的句首开始,对所述待处理语句依次进行多次扫描处理,每次扫描处理对当前的扫描区域进行同步分词处理确定当前的扫描区域的分词结果,直至完成对所述待处理语句全部内容的扫描处理,得到所述待处理语句对应的多个扫描区域的分词结果;
整合处理模块,用于对所述多个扫描区域的分词结果进行整合处理,得到所述待处理语句的全句分词结果。
本发明的另一个方面是提供一种分词处理设备,包括:
处理器,存储器,以及存储在所述存储器上并可在所述处理器上运行的计算机程序;
其中,所述处理器运行所述计算机程序时实现上述所述的分词处理方法。
本发明的另一个方面是提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现上述所述的分词处理方法。
本发明提供的分词处理方法、装置、设备及计算机可读存储介质,通过从待处理语句的句首开始,对所述待处理语句依次进行多次扫描处理,每次扫描处理对当前的扫描区域进行同步分词处理确定当前的扫描区域的分词结果,直至完成对所述待处理语句全部内容的扫描处理,得到所述待处理语句对应的多个扫描区域的分词结果;对所述多个扫描区域的分词结果进行整合处理,得到所述待处理语句的全句分词结果,根据人在阅读语句时的实现行为定义了扫描区域,对扫描区域内的文本进行同步分词处理得到扫描区域的分词结果,而不是逐个字的分析,分词结果能够体现文本中上下文的关联关系,提高了分词处理的准确率和效率。
附图说明
图1为本发明实施例一提供的分词处理方法流程图;
图2为本发明实施例二提供的分词处理方法流程图;
图3为本发明实施例二提供的分词处理的示意图;
图4为本发明实施例三提供的分词处理装置的结构示意图;
图5为本发明实施例四提供的分词处理装置的结构示意图;
图6为本发明实施例五提供的分词处理设备的结构示意图。
通过上述附图,已示出本发明明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围,而是通过参考特定实施例为本领域技术人员说明本发明的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
本发明所涉及的术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。在以下各实施例的描述中,“多个”的含义是两个以上,除非另有明确具体的限定。
本发明具体的应用场景可以是搜索引擎、文本机器人、智能问答系统、客服系统、敏感词提取等,需要对某一文本进行分词处理的场景。需要进行分词处理的文本可以是用户直接输入的文本,也可以是根据用户输入信息提取到的文本,或者还可以是其他需要进行分词处理的文本,本实施例此处不做具体限定。本实施例中的方法应用于分词处理设备,该分词处理设备可以是智能手机、平板电脑等移动终端,也可以是服务器等,在其他实施例中,该方法还可应用于其他设备,本实施例以分词处理设备为例进行示意性说明。
下面以具体地实施例对本发明的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本发明的实施例进行描述。
实施例一
图1为本发明实施例一提供的分词处理方法流程图。本发明实施例针对现有的分词处理方法分词结果准确率低、分词效率低的问题,提供了分词处理方法。如图1所示,该方法具体步骤如下:
步骤S101、从待处理语句的句首开始,对待处理语句依次进行多次扫描处理,每次扫描处理对当前的扫描区域进行同步分词处理确定当前的扫描区域的分词结果,直至完成对待处理语句全部内容的扫描处理,得到待处理语句对应的多个扫描区域的分词结果。
其中,待处理语句是需要进行分词处理的文本,可以是用户直接输入的文本,也可以是根据用户输入信息提取到的文本,或者还可以是其他需要进行分词处理的文本,本实施例此处不做具体限定。
本实施例中,根据人在阅读语句时的视线行为定义了扫描区域,扫描区域可以理解成是人在阅读时同时观察到的文字区域,人对于扫描区域内的文字处理几乎是同步的处理过程。
本实施例中,在进行分词处理时,从待处理语句的句首开始,每次对一个扫描区域内的文本进行同步分词处理,得到一个扫描区域的分词结果,然后将扫描区域后移,继续对下一个扫描区域内的文本进行同步分词处理,得到下一个扫描区域的分词结果,以此类推,直至完成对待处理语句全部内容的扫描处理。这样,通过对待处理语句依次进行多次扫描处理,每次扫描处理对当前的扫描区域进行同步分词处理确定当前的扫描区域的分词结果,得到待处理语句对应的多个扫描区域的分词结果。
步骤S102、对多个扫描区域的分词结果进行整合处理,得到待处理语句的全句分词结果。
在得到待处理语句对应的多个扫描区域的分词结果之后,通过对多个扫描区域的分词结果进行整合处理,得到待处理语句的全句分词结果。
示例性的,对多个扫描区域的分词结果进行整合处理,可以是按照各个扫描区域的顺序,将各个扫描区域的分词结果依次拼接,得到待处理语句的全句分词结果。
进一步的,如果相邻的两个扫描区域有重叠的部分,只保留其中一个扫描区域内该重叠部分的分词结果。
本发明实施例通过从待处理语句的句首开始,对待处理语句依次进行多次扫描处理,每次扫描处理对当前的扫描区域进行同步分词处理确定当前的扫描区域的分词结果,直至完成对待处理语句全部内容的扫描处理,得到待处理语句对应的多个扫描区域的分词结果;对多个扫描区域的分词结果进行整合处理,得到待处理语句的全句分词结果,根据人在阅读语句时的实现行为定义了扫描区域,对扫描区域内的文本进行同步分词处理得到扫描区域的分词结果,而不是逐个字的分析,分词结果能够体现文本中上下文的关联关系,提高了分词处理的准确率和效率。
实施例二
图2为本发明实施例二提供的分词处理方法流程图;图3为本发明实施例二提供的分词处理的示意图。在上述实施例一的基础上,本实施例中,从待处理语句的句首开始,对待处理语句依次进行多次扫描处理,每次扫描处理对当前的扫描区域进行同步分词处理,确定当前的扫描区域的分词结果,直至完成对待处理语句全部内容的扫描处理,得到待处理语句对应的多个扫描区域的分词结果,包括:从待处理语句的句首开始,根据扫描区域大小,确定一个扫描区域,对当前的扫描区域进行如下扫描处理:对当前的扫描区域进行同步分词处理确定当前的扫描区域的分词结果;若当前的扫描区域不包括待处理语句的句尾,则将扫描区域向句尾方向移动,确定下一个扫描区域,并对下一个扫描区域进行扫描处理;若当前的扫描区域包括待处理语句的句尾,则确定得到待处理语句对应的所有扫描区域的分词结果。如图2所示,该方法具体步骤如下:
步骤S201、根据待处理语句的句子长度,确定扫描区域大小。
其中,待处理语句是需要进行分词处理的文本,可以是用户直接输入的文本,也可以是根据用户输入信息提取到的文本,或者还可以是其他需要进行分词处理的文本,本实施例此处不做具体限定。
本实施例中,根据人在阅读语句时的视线行为定义了扫描区域(如图3中所示的视角扫描区域),扫描区域可以理解成是人在阅读时同时观察到的文字区域,人对于扫描区域内的文字处理几乎是同步的处理过程。
本实施例中,在对待处理语句进行分词处理之前,根据待处理语句的句子长度,确定扫描区域大小。
具体的,根据预先设定的句子最大长度和扫描区域最大长度,以及待处理语句的句子长度,确定扫描区域大小。
示例性的,可以通过可以采用如下方程式:待处理句子长度/句子最大长度=经验系数×扫描区域长度/扫描区域最大长度,计算出扫描区域长度。如果计算出的扫描区域长度不是整数,则采用上取整的方式确定的扫描区域长度。
其中,句子最大长度和扫描区域最大长度是预先设定的待处理语句的最大上限长度和扫描区域的最大上限长度。句子最大长度,扫描区域最大长度以及经验系数均可以由技术人员根据实际应用场景和经验进行设定,本实施例此处不做具体限定。例如,句子最大长度可以为50,扫描区域最大长度可以为10。
可选的,在根据待处理语句的句子长度确定扫描区域大小之后,还可以根据分词处理要求精度,对计算得到的扫描区域长度进行调整,以满足对应精度的扫描区域长度范围的要求。例如,可以设定不同精度范围对应的扫描区域长度范围,在确定扫描区域大小之后,根据当前要求的精度对应的扫描区域长度范围,确定扫描区域大小是否在对应的扫描区域长度范围内,如果当前的扫描区域大小在对应的扫描区域长度范围内,则不需要调整。如果当前的扫描区域大小不在对应的扫描区域长度范围内,则需要将扫描区域大小调整到对应的扫描区域长度范围内。
可选的,在根据待处理语句的句子长度确定扫描区域大小之后,还可以根据分词处理设备当前的计算能力,调整扫描区域的大小,以保证分词处理的效率。
步骤S202、从待处理语句的句首开始,根据扫描区域大小,确定一个扫描区域。
在确定扫描区域大小之后,可以从待处理语句的句首开始,根据扫描区域大小,确定一个扫描区域。该扫描区域从待处理语句的句首开始,长度为扫描区域大小的部分,作为待处理语句的第一个扫描区域。
例如,扫描区域大小为5,那么第一个扫描区域包括待处理语句中位于句首的连续的5个字。如图3所示,待处理语句为“对固网业务同时迁移手续费进行调整”,第一个扫描区域(如图3中所示的视角扫描区域)为“对固网业务”。
每次确定一个扫描区域之后,对当前的扫描区域进行如下步骤S203-S206的扫描处理过程,具体包括对当前的扫描区域进行同步分词处理确定当前的扫描区域的分词结果,以及确定下一个扫描区域。
步骤S203、对当前的扫描区域进行同步分词处理确定当前的扫描区域的分词结果。
本实施例中,需要预先确定词上下文关联概率信息和词空间概率信息。
具体的,获取历史数据集,历史数据集中的每条历史数据包括输入语句以及输入语句对应的已知分词结果;根据历史数据集,确定词上下文关联概率信息和词空间概率信息。
可选的,可以通过机器学习模块对词空间概率和词上下文关联概率训练生成词上下文关联概率信息和词空间概率信息。其中提供给机器学习模块进行训练的数据是经过审核过的已经完成分词的语句,通过两个机器学习模块分别从不同角度针对语句进行训练,分别用于确定词上下文关联概率信息和词空间概率信息。
词上下文关联概率信息包括:已知分词结果中出现的每个分词的上文库和下文库,上文库包括:上文关联词、上文关联词的近义词和同义词、以及上文关联词的近义词和同义词的第一置信值;下文库包括:下文关联词、下文关联词的近义词和同义词、下文关联词的近义词和同义词的第二置信值。
其中,分词的上文关联词是指作为分词的相邻上文出现的词,分词的下文关联词是指作为分词的相邻下文出现的词。
分词的上文库中上文关联词的近义词和同义词的第一置信值,表示上文关联词的近义词和同义词作为该分词的上文出现的置信度,能够体现上文关联词的近义词和同义词作为该分词的上文关联词出现的可能性。第一置信值越大,对应上文关联词的近义词和同义词作为该分词的上文关联词出现的可能性越大。
分词的下文库中下文关联词的近义词和同义词的第二置信值,表示下文关联词的近义词和同义词作为该分词的下文出现的置信度,能够体现下文关联词的近义词和同义词作为该分词的下文关联词出现的可能性。第二置信值越大,对应下文关联词的近义词和同义词作为该分词的下文关联词出现的可能性越大。
另外,可以设定分词的上文库中上文关联词作为该分词的相邻上文的关联置信度为最大关联置信度,分词的下文库中下文关联词作为该分词的相邻下文的关联置信度为最大关联置信度。最大关联置信值大于关联置信阈值。
词空间概率信息包括:已知分词结果中出现的每个分词出现在句子中各个位置区域的概率。
另外,词上下文关联概率信息和词空间概率信息,可以以数据库的方式存储为词上下文关联概率库和词空间概率库。
其中,一个句子的位置区域包括:句首、句中和句尾。一个分词出现在句子各个区域的概率之和为1。
该步骤中,对当前的扫描区域进行同步分词处理确定当前的扫描区域的分词结果,具体可以采用如下方式实现:
获取当前的扫描区域所有的分词候选结果;根据词上下文关联概率信息,从分词候选结果中筛选出任意相邻两个词之间的关联置信度均大于关联置信阈值的第一候选结果;根据词空间概率信息,计算各第一候选结果的置信度;将置信度最大的第一候选结果确定为当前的扫描区域的分词结果。
其中,关联置信阈值可以由技术人员根据实际应用场景和经验进行设定,本实施例此处不做具体限定。例如,关联置信阈值可以是5。
具体的,任意相邻两个词可以用词A和词B表示,且词A在词B的上文,词A和词B之间的关联置信度可以采用如下任意一种方式确定:
一种可能的实现方式为:查找词A的下文库,如果词B是词A的下文库中的一个下文关联词,那么可以直接确定词A和词B之间的关联置信度大于关联置信阈值;如果词B不是词A的下文库中的一个下文关联词,且词B是词A的下文库中的下文关联词的近义词或者同义词,则确定词B在词A的下文库中的第一置信值,作为词A和词B之间的关联置信度。
另一种可能的实现方式为:查找词B的上文库,如果词A是词B的上文库中的一个上文关联词,那么可以直接确定词A和词B之间的关联置信度大于关联置信阈值;如果词A不是词B的上文库中的一个上文关联词,且词A是词B的上文库中的上文关联词的近义词或者同义词,则确定词A在词B的上文库中的第二置信值,作为词A和词B之间的关联置信度。
可选的,在根据词空间概率信息计算各第一候选结果的置信度之前,先确定第一候选结果的数量,如果第一候选结果只有一个,那么可以将第一候选结果直接作为当前的扫描区域的分词结果;如果第一候选结果的数量大于1,则根据词空间概率信息,计算各第一候选结果的置信度;将置信度最大的第一候选结果确定为当前的扫描区域的分词结果。
进一步的,根据词空间概率信息,计算第一候选结果的置信度,可以采用如下方式实现:
根据第一候选结果中每个分词在待处理语句中的位置区域,查询词空间概率信息,确定每个分词出现在对应位置区域的概率,对各个分词出现在对应位置区域的概率进行求和或者加权求和,得到第一候选结果的置信度。
可选的,获取当前的扫描区域所有的分词候选结果之后,还可以根据每一组分词候选结果中的每个包括多个字的分词单独出现的概率对分词候选结果进行筛选,如果确定某一分词单独出现的概率为0,那么可以排除掉所有包括该分词的分词候选结果,这样可以减少大量重复计算工作,提高分词处理的效率。
另外,某一个包括多个字的分词单独出现的概率可以根据大量历史数据中统计分词出现的概率得到,或者采用现有技术中其他任意一种能够确定一个包括多个字的词是否能够构成词的方法来实现,本实施例此处不再赘述。
步骤S204、判断当前的扫描区域是否包括待处理语句的句尾。
在对当前的扫描区域进行同步分词处理确定当前的扫描区域的分词结果之后,通过判断当前的扫描区域是否包括待处理语句的句尾,来确定当前的扫描区域是否是待处理语句的最后一个扫描区域。
如果当前的扫描区域不包括待处理语句的句尾,那么当前的扫描区域不是待处理语句的最后一个扫描区域,执行步骤S205,将扫描区域向句尾方向移动,确定下一个扫描区域。
如果当前的扫描区域包括待处理语句的句尾,那么当前的扫描区域是待处理语句的最后一个扫描区域,执行步骤S206。
步骤S205、若当前的扫描区域不包括待处理语句的句尾,则将扫描区域向句尾方向移动,确定下一个扫描区域。
具体的,从当前的扫描区域之后,与当前的扫描区域相邻的位置开始,根据扫描区域的大小,确定下一个扫描区域。
可选的,在根据扫描区域的大小,确定下一个扫描区域,可以调整扫描区域的大小。这样,整个分词处理过程中扫描区域的大小和位置是在动态变化的,这样可以保证整句的分词结果的准确度。
可选的,在根据扫描区域的大小确定下一个扫描区域之后,还可以根据当前的扫描区域的分词结果,调整下一个扫描区域的大小及位置,将当前的扫描区域末尾的至少一个词添加到下一个扫描区域中。这样,整个分词处理过程中扫描区域的大小和位置是在动态变化的,这样可以保证整句的分词结果的准确度。
例如,在根据扫描区域大小确定下一个扫描区域之后,可以将当前的扫描区域的最后一个分词加入的下一个扫描区域。
例如,当前扫描区域为待处理语句的前5个字,那么,将扫描区域向句尾方向移动确定的下一个扫描区域为待处理语句中从句首开始的第6至第10个字。假设当前扫描区域的分词结果中的最后一个分词包括两个字,通过将当前扫描区域的最后一个分词添加到下一个扫描区域,调整下一个扫描区域的大小及位置之后,下一个扫描区域为待处理语句中从句首开始的第4至第10个字。如图3所示,假设当前扫描区域(如图3中所示的视角扫描区域)的分词结果为“对,固网,业务”,将扫描区域的大小调整为6,将扫描区域向句尾方向移动确定的下一个扫描区域为“同时迁移手续”,将当前扫描区域的分词结果中最后一个分词添加到下一个扫描区域中调整下一个扫描区域的大小及位置之后,最终确定的下一个扫描区域为“业务同时迁移手续”。
在确定下一个扫描区域之后,跳转执行步骤S203,继续对下一个扫描区域进行扫描处理。
步骤S206、若当前的扫描区域包括待处理语句的句尾,则确定得到待处理语句对应的所有扫描区域的分词结果。
如果当前的扫描区域包括待处理语句的句尾,那么当前的扫描区域是待处理语句的最后一个扫描区域,已经得到了处理语句对应的所有扫描区域的分词结果。
步骤S207、对多个扫描区域的分词结果进行整合处理,得到待处理语句的全句分词结果。
在得到待处理语句对应的多个扫描区域的分词结果之后,通过对多个扫描区域的分词结果进行整合处理,得到待处理语句的全句分词结果。
示例性的,对多个扫描区域的分词结果进行整合处理,可以是按照各个扫描区域的顺序,将各个扫描区域的分词结果依次拼接,得到待处理语句的全句分词结果。
具体的,对于待处理语句中同时属于相邻两个扫描区域的部分,仅保留其在后一扫描区域的分词结果。
例如,如果相邻的两个扫描区域有重叠的部分,只保留其中一个扫描区域内该重叠部分的分词结果。
可选的,如图3所示,对多个扫描区域的分词结果进行整合处理,得到待处理语句的全句分词结果之后,还可以对全句分词结果进行检验处理;根据检验处理结果,更新词上下文关联概率信息和词空间概率信息。
示例性的,对全句分词结果进行检验处理,可以包括:
根据词上下文关联概率信息,判断是否产生分词错误,如果产生分词错误则人工干预给出正确分词结果,并根据正确分词结果对词上下文关联概率信息和词空间概率信息进行优化;和/或,根据词空间概率信息,计算全句分词结果的置信度,若置信度小于预设置信度阈值,那么人工干预给出正确分词结果,并根据正确分词结果对词上下文关联概率信息和词空间概率信息进行优化。
其中,预设置信度阈值可以由技术人员根据实际应用场景和经验进行设定,本实施例此处不做具体限定。
本发明实施例通过从待处理语句的句首开始,对待处理语句依次进行多次扫描处理,每次扫描处理对当前的扫描区域进行同步分词处理确定当前的扫描区域的分词结果,直至完成对待处理语句全部内容的扫描处理,得到待处理语句对应的多个扫描区域的分词结果;对多个扫描区域的分词结果进行整合处理,得到待处理语句的全句分词结果,根据人在阅读语句时的实现行为定义了扫描区域,对扫描区域内的文本进行同步分词处理得到扫描区域的分词结果,而不是逐个字的分析,分词结果能够体现文本中上下文的关联关系,提高了分词处理的准确率和效率。
实施例三
图4为本发明实施例三提供的分词处理装置的结构示意图。本发明实施例提供的分词处理装置可以执行分词处理方法实施例提供的处理流程。如图4所示,该装置30包括:扫描处理模块301和整合处理模块302。
具体地,扫描处理模块301用于从待处理语句的句首开始,对待处理语句依次进行多次扫描处理,每次扫描处理对当前的扫描区域进行同步分词处理确定当前的扫描区域的分词结果,直至完成对待处理语句全部内容的扫描处理,得到待处理语句对应的多个扫描区域的分词结果。
整合处理模块302用于对多个扫描区域的分词结果进行整合处理,得到待处理语句的全句分词结果。
本发明实施例提供的装置可以具体用于执行上述实施例一所提供的方法实施例,具体功能此处不再赘述。
本发明实施例通过从待处理语句的句首开始,对待处理语句依次进行多次扫描处理,每次扫描处理对当前的扫描区域进行同步分词处理确定当前的扫描区域的分词结果,直至完成对待处理语句全部内容的扫描处理,得到待处理语句对应的多个扫描区域的分词结果;对多个扫描区域的分词结果进行整合处理,得到待处理语句的全句分词结果,根据人在阅读语句时的实现行为定义了扫描区域,对扫描区域内的文本进行同步分词处理得到扫描区域的分词结果,而不是逐个字的分析,分词结果能够体现文本中上下文的关联关系,提高了分词处理的准确率和效率。
实施例四
图5为本发明实施例四提供的分词处理装置的结构示意图。在上述实施例三的基础上,本实施例中,扫描处理模块还用于:
从待处理语句的句首开始,根据扫描区域大小,确定一个扫描区域,对当前的扫描区域进行如下扫描处理:
对当前的扫描区域进行同步分词处理确定当前的扫描区域的分词结果;若当前的扫描区域不包括待处理语句的句尾,则将扫描区域向句尾方向移动,确定下一个扫描区域,并对下一个扫描区域进行扫描处理;若当前的扫描区域包括待处理语句的句尾,则确定得到待处理语句对应的所有扫描区域的分词结果。
可选的,扫描处理模块还用于:
根据待处理语句的句子长度,确定扫描区域大小。
可选的,扫描处理模块还用于:
获取当前的扫描区域所有的分词候选结果;根据词上下文关联概率信息,从分词候选结果中筛选出任意相邻两个词之间的关联置信度均大于关联置信阈值的第一候选结果;根据词空间概率信息,计算各第一候选结果的置信度;将置信度最大的第一候选结果确定为当前的扫描区域的分词结果。
可选的,如图5所示,分词处理装置30还包括:机器学习模块303。机器学习模块303用于:
获取历史数据集,历史数据集中的每条历史数据包括输入语句以及输入语句对应的已知分词结果;根据历史数据集,确定词上下文关联概率信息和词空间概率信息。
其中,词上下文关联概率信息包括:已知分词结果中出现的每个分词的上文库和下文库,上文库包括:上文关联词、上文关联词的近义词和同义词、以及上文关联词的近义词和同义词的第一置信值;下文库包括:下文关联词、下文关联词的近义词和同义词、下文关联词的近义词和同义词的第二置信值。
词空间概率信息包括:已知分词结果中出现的每个分词出现在句子中各个位置区域的概率,一个句子的位置区域包括:句首、句中和句尾,一个分词出现在句子各个区域的概率之和为1。
可选的,扫描处理模块还用于:
根据当前的扫描区域的分词结果,调整下一个扫描区域的大小及位置,将当前的扫描区域末尾的至少一个词添加到下一个扫描区域中。
可选的,整合处理模块还用于:
对于待处理语句中同时属于相邻两个扫描区域的部分,仅保留其在后一扫描区域的分词结果。
可选的,扫描处理模块还用于:
根据预先设定的句子最大长度和扫描区域最大长度,以及待处理语句的句子长度,确定扫描区域大小。
可选的,机器学习模块还用于:
对全句分词结果进行检验处理;根据检验处理结果,更新词上下文关联概率信息和词空间概率信息。
本发明实施例提供的装置可以具体用于执行上述实施例二所提供的方法实施例,具体功能此处不再赘述。
本发明实施例通过从待处理语句的句首开始,对待处理语句依次进行多次扫描处理,每次扫描处理对当前的扫描区域进行同步分词处理确定当前的扫描区域的分词结果,直至完成对待处理语句全部内容的扫描处理,得到待处理语句对应的多个扫描区域的分词结果;对多个扫描区域的分词结果进行整合处理,得到待处理语句的全句分词结果,根据人在阅读语句时的实现行为定义了扫描区域,对扫描区域内的文本进行同步分词处理得到扫描区域的分词结果,而不是逐个字的分析,分词结果能够体现文本中上下文的关联关系,提高了分词处理的准确率和效率。
实施例五
图6为本发明实施例五提供的分词处理设备的结构示意图。如图6所示,该设备70包括:处理器701,存储器702,以及存储在存储器702上并可在处理器701上运行的计算机程序。
其中,处理器701运行计算机程序时实现上述任一方法实施例提供的分词处理方法。
本发明实施例通过从待处理语句的句首开始,对待处理语句依次进行多次扫描处理,每次扫描处理对当前的扫描区域进行同步分词处理确定当前的扫描区域的分词结果,直至完成对待处理语句全部内容的扫描处理,得到待处理语句对应的多个扫描区域的分词结果;对多个扫描区域的分词结果进行整合处理,得到待处理语句的全句分词结果,根据人在阅读语句时的实现行为定义了扫描区域,对扫描区域内的文本进行同步分词处理得到扫描区域的分词结果,而不是逐个字的分析,分词结果能够体现文本中上下文的关联关系,提高了分词处理的准确率和效率。
另外,本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现上述任一方法实施例提供的分词处理方法。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求书指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求书来限制。

Claims (10)

1.一种分词处理方法,其特征在于,包括:
从待处理语句的句首开始,对所述待处理语句依次进行多次扫描处理,每次扫描处理对当前的扫描区域进行同步分词处理确定当前的扫描区域的分词结果,直至完成对所述待处理语句全部内容的扫描处理,得到所述待处理语句对应的多个扫描区域的分词结果;
对所述多个扫描区域的分词结果进行整合处理,得到所述待处理语句的全句分词结果;
所述从待处理语句的句首开始,对所述待处理语句依次进行多次扫描处理,每次扫描处理对当前的扫描区域进行同步分词处理,确定当前的扫描区域的分词结果,直至完成对所述待处理语句全部内容的扫描处理,得到所述待处理语句对应的多个扫描区域的分词结果,包括:
从待处理语句的句首开始,根据扫描区域大小,确定一个扫描区域,对当前的扫描区域进行如下扫描处理:
对当前的扫描区域进行同步分词处理确定当前的扫描区域的分词结果;
若所述当前的扫描区域不包括所述待处理语句的句尾,则将扫描区域向句尾方向移动,确定下一个扫描区域,并对所述下一个扫描区域进行所述扫描处理;
若所述当前的扫描区域包括所述待处理语句的句尾,则确定得到所述待处理语句对应的所有扫描区域的分词结果;
所述对当前的扫描区域进行同步分词处理确定当前的扫描区域的分词结果,包括:
获取所述当前的扫描区域所有的分词候选结果;
根据词上下文关联概率信息,从所述分词候选结果中筛选出任意相邻两个词之间的关联置信度均大于关联置信阈值的第一候选结果;
根据词空间概率信息,计算各所述第一候选结果的置信度;
将置信度最大的第一候选结果确定为所述当前的扫描区域的分词结果。
2.根据权利要求1所述的方法,其特征在于,所述从待处理语句的句首开始,对所述待处理语句依次进行多次扫描处理,每次扫描处理对当前的扫描区域进行同步分词处理确定当前的扫描区域的分词结果,直至完成对所述待处理语句全部内容的扫描处理,得到所述待处理语句对应的多个扫描区域的分词结果之前,还包括:
根据所述待处理语句的句子长度,确定所述扫描区域大小。
3.根据权利要求1所述的方法,其特征在于,所述根据词上下文关联概率信息,从所述分词候选结果中筛选出任意相邻两个词之间的关联置信度均大于关联置信阈值的第一候选结果之前,还包括:
获取历史数据集,所述历史数据集中的每条历史数据包括输入语句以及输入语句对应的已知分词结果;
根据所述历史数据集,确定词上下文关联概率信息和词空间概率信息;
所述词上下文关联概率信息包括:所述已知分词结果中出现的每个分词的上文库和下文库,所述上文库包括:上文关联词、上文关联词的近义词和同义词、以及上文关联词的近义词和同义词的第一置信值;所述下文库包括:下文关联词、下文关联词的近义词和同义词、下文关联词的近义词和同义词的第二置信值;
所述词空间概率信息包括:所述已知分词结果中出现的每个分词出现在句子中各个位置区域的概率,一个句子的位置区域包括:句首、句中和句尾,一个分词出现在句子各个区域的概率之和为1。
4.根据权利要求1所述的方法,其特征在于,所述将扫描区域向句尾方向移动,确定下一个扫描区域之后,在对所述下一个扫描区域进行所述扫描处理之前,还包括:
根据所述当前的扫描区域的分词结果,调整所述下一个扫描区域的大小及位置,将所述当前的扫描区域末尾的至少一个词添加到所述下一个扫描区域中。
5.根据权利要求4所述的方法,其特征在于,所述对所述多个扫描区域的分词结果进行整合处理,得到所述待处理语句的全句分词结果,包括:
对于所述待处理语句中同时属于相邻两个扫描区域的部分,仅保留其在后一扫描区域的分词结果。
6.根据权利要求2所述的方法,其特征在于,所述根据所述待处理语句的句子长度,确定所述扫描区域大小,包括:
根据预先设定的句子最大长度和扫描区域最大长度,以及所述待处理语句的句子长度,确定所述扫描区域大小。
7.根据权利要求1或3所述的方法,其特征在于,所述对所述多个扫描区域的分词结果进行整合处理,得到所述待处理语句的全句分词结果之后,还包括:
对所述全句分词结果进行检验处理;
根据所述检验处理结果,更新所述词上下文关联概率信息和所述词空间概率信息。
8.一种分词处理装置,其特征在于,包括:
扫描处理模块,用于从待处理语句的句首开始,对所述待处理语句依次进行多次扫描处理,每次扫描处理对当前的扫描区域进行同步分词处理确定当前的扫描区域的分词结果,直至完成对所述待处理语句全部内容的扫描处理,得到所述待处理语句对应的多个扫描区域的分词结果;
整合处理模块,用于对所述多个扫描区域的分词结果进行整合处理,得到所述待处理语句的全句分词结果;
所述处理模块具体用于:
从待处理语句的句首开始,根据扫描区域大小,确定一个扫描区域,对当前的扫描区域进行如下扫描处理:
对当前的扫描区域进行同步分词处理确定当前的扫描区域的分词结果;
若所述当前的扫描区域不包括所述待处理语句的句尾,则将扫描区域向句尾方向移动,确定下一个扫描区域,并对所述下一个扫描区域进行所述扫描处理;
若所述当前的扫描区域包括所述待处理语句的句尾,则确定得到所述待处理语句对应的所有扫描区域的分词结果;
所述扫描处理模块具体用于:
获取所述当前的扫描区域所有的分词候选结果;
根据词上下文关联概率信息,从所述分词候选结果中筛选出任意相邻两个词之间的关联置信度均大于关联置信阈值的第一候选结果;
根据词空间概率信息,计算各所述第一候选结果的置信度;
将置信度最大的第一候选结果确定为所述当前的扫描区域的分词结果。
9.一种分词处理设备,其特征在于,包括:
处理器,存储器,以及存储在所述存储器上并可在所述处理器上运行的计算机程序;
其中,所述处理器运行所述计算机程序时实现如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。
CN201910886160.3A 2019-09-19 2019-09-19 分词处理方法、装置、设备及计算机可读存储介质 Active CN110619122B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910886160.3A CN110619122B (zh) 2019-09-19 2019-09-19 分词处理方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910886160.3A CN110619122B (zh) 2019-09-19 2019-09-19 分词处理方法、装置、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110619122A CN110619122A (zh) 2019-12-27
CN110619122B true CN110619122B (zh) 2023-08-22

Family

ID=68923733

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910886160.3A Active CN110619122B (zh) 2019-09-19 2019-09-19 分词处理方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110619122B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378566A (zh) * 2021-05-31 2021-09-10 安徽淘云科技股份有限公司 信息内容显示方法、装置和设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101082908A (zh) * 2007-06-26 2007-12-05 腾讯科技(深圳)有限公司 一种中文分词方法及系统
CN102945228A (zh) * 2012-10-29 2013-02-27 广西工学院 一种基于文本分割技术的多文档文摘方法
CN102982099A (zh) * 2012-11-05 2013-03-20 西安邮电大学 一种个性化并行分词处理系统及其处理方法
CN104408034A (zh) * 2014-11-28 2015-03-11 武汉数为科技有限公司 一种面向文本大数据的中文分词方法
CN105975454A (zh) * 2016-04-21 2016-09-28 广州精点计算机科技有限公司 一种网页文本的中文分词方法和装置
CN108829894A (zh) * 2018-06-29 2018-11-16 北京百度网讯科技有限公司 口语词识别和语义识别方法及其装置
CN108920576A (zh) * 2018-06-25 2018-11-30 中科点击(北京)科技有限公司 一种自适应文本检索方法
CN110188355A (zh) * 2019-05-29 2019-08-30 北京声智科技有限公司 一种基于wfst技术的分词方法、系统、设备及介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2460154C1 (ru) * 2011-06-15 2012-08-27 Александр Юрьевич Бредихин Способ автоматизированной обработки текста и компьютерное устройство для реализации этого способа

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101082908A (zh) * 2007-06-26 2007-12-05 腾讯科技(深圳)有限公司 一种中文分词方法及系统
CN102945228A (zh) * 2012-10-29 2013-02-27 广西工学院 一种基于文本分割技术的多文档文摘方法
CN102982099A (zh) * 2012-11-05 2013-03-20 西安邮电大学 一种个性化并行分词处理系统及其处理方法
CN104408034A (zh) * 2014-11-28 2015-03-11 武汉数为科技有限公司 一种面向文本大数据的中文分词方法
CN105975454A (zh) * 2016-04-21 2016-09-28 广州精点计算机科技有限公司 一种网页文本的中文分词方法和装置
CN108920576A (zh) * 2018-06-25 2018-11-30 中科点击(北京)科技有限公司 一种自适应文本检索方法
CN108829894A (zh) * 2018-06-29 2018-11-16 北京百度网讯科技有限公司 口语词识别和语义识别方法及其装置
CN110188355A (zh) * 2019-05-29 2019-08-30 北京声智科技有限公司 一种基于wfst技术的分词方法、系统、设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Line and Word Segmentation of handwritten text documents written in Gurmukhi Script using mid point detection technique";Payal Jindal等;《2015 2nd International Conference on Recent Advances in Engineering & Computational Sciences (RAECS)》;全文 *

Also Published As

Publication number Publication date
CN110619122A (zh) 2019-12-27

Similar Documents

Publication Publication Date Title
WO2020192401A1 (en) System and method for generating answer based on clustering and sentence similarity
CN106874441B (zh) 智能问答方法和装置
US20150269137A1 (en) Input method and system
CN110334179B (zh) 问答处理方法、装置、计算机设备和存储介质
US20220414131A1 (en) Text search method, device, server, and storage medium
CN110717021B (zh) 人工智能面试中获取输入文本和相关装置
CN111274785B (zh) 一种文本纠错方法、装置、设备及介质
CN109740040B (zh) 验证码识别方法、装置、存储介质和计算机设备
CN110619122B (zh) 分词处理方法、装置、设备及计算机可读存储介质
EP4060526A1 (en) Text processing method and device
CN111444906B (zh) 基于人工智能的图像识别方法和相关装置
CN111241811B (zh) 确定搜索词权重的方法、装置、计算机设备和存储介质
CN110427626B (zh) 关键词的提取方法及装置
CN115858776B (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备
CN111126201A (zh) 剧本中人物识别方法及装置
CN113836297B (zh) 文本情感分析模型的训练方法及装置
CN114547467A (zh) 搜题方法、装置、终端设备及可读存储介质
CN111310442B (zh) 形近字纠错语料挖掘方法、纠错方法、设备及存储介质
CN113705468A (zh) 基于人工智能的数字图像识别方法及相关设备
CN111259180B (zh) 图像推送方法、装置、电子设备和存储介质
CN108021918B (zh) 文字识别方法及装置
WO2021051600A1 (zh) 基于信息熵识别新词的方法、装置、设备及存储介质
CN116579750B (zh) 基于人工智能的rpa控制数据处理方法及装置
CN116029492B (zh) 派单方法和装置
CN110175234B (zh) 未登录词识别方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant