CN112861531B - 分词方法、装置、存储介质和电子设备 - Google Patents
分词方法、装置、存储介质和电子设备 Download PDFInfo
- Publication number
- CN112861531B CN112861531B CN202110304344.1A CN202110304344A CN112861531B CN 112861531 B CN112861531 B CN 112861531B CN 202110304344 A CN202110304344 A CN 202110304344A CN 112861531 B CN112861531 B CN 112861531B
- Authority
- CN
- China
- Prior art keywords
- word segmentation
- character
- probability matrix
- preset
- characters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 419
- 238000000034 method Methods 0.000 title claims abstract description 38
- 239000011159 matrix material Substances 0.000 claims abstract description 180
- 230000007704 transition Effects 0.000 claims abstract description 58
- 238000012545 processing Methods 0.000 claims description 28
- 238000004590 computer program Methods 0.000 claims description 6
- 238000012546 transfer Methods 0.000 claims description 5
- 238000004891 communication Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 9
- 238000012549 training Methods 0.000 description 7
- 238000003058 natural language processing Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000001133 acceleration Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 230000001915 proofreading effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
- G06F40/129—Handling non-Latin characters, e.g. kana-to-kanji conversion
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本公开涉及一种分词方法、装置、存储介质和电子设备,该方法包括:按照第一字符方向确定待分词语句中与多个预设字符串匹配的第一字符串,并按照第二字符方向确定待分词语句中与多个预设字符串匹配的第二字符串,在第一字符串和第二字符串包括相同字符的情况下,根据多个字符,通过分词模型,确定原始概率矩阵,根据第一字符串对原始概率矩阵进行调整,得到第一概率矩阵,并根据第二字符串对原始概率矩阵进行调整,得到第二概率矩阵,根据第一概率矩阵,第二概率矩阵以及分词模型对应的转移概率矩阵,确定待分词语句的目标分词结果。本公开能够避免由于第一字符串和第二字符串包括相同字符导致的分词结果出现错误,提高了分词的灵活度和准确度。
Description
技术领域
本公开涉及自然语言处理技术领域,尤其涉及一种分词方法、装置、存储介质和电子设备。
背景技术
随着人工智能的不断发展,对语句分词的准确度的要求也越来越高。语句分词是自然语言处理(英文:Natural Language Processing,缩写:NLP)技术的重要组成部分之一。在对待分词语句进行分词的过程中,通常需要使用分词工具将待分词语句切分成一个个单独的词。然而,在需要对特定领域或者用户进行个性化分词时,分词效果较差。
相关技术中,主要是通过引入用户词典的方式,使用强制干预算法,来对分词结果进行干预,若待分词语句包含用户词典中存在的词,提高这个词在分词结果中被优先标识的概率,以提高分词效果。但是,当用户词典中的词之间存在交叠关系时,可能会导致分词结果出现错误,降低了对待分词语句进行分词的灵活度和准确度。
发明内容
为克服相关技术中存在的问题,本公开提供一种分词方法、装置、存储介质和电子设备。
根据本公开实施例的第一方面,提供一种分词方法,所述方法包括:
按照第一字符方向确定待分词语句中与多个预设字符串匹配的第一字符串,并按照第二字符方向确定待分词语句中与所述多个预设字符串匹配的第二字符串;所述第一字符方向为由所述待分词语句包括的多个字符中,首个字符指向最后一个字符的方向,所述第二字符方向与所述第一字符方向相反;
在所述第一字符串和所述第二字符串包括相同字符的情况下,根据所述多个字符,通过预先训练的分词模型,确定原始概率矩阵;所述原始概率矩阵包括所述多个字符中每个字符对应的多个预设分词标签的标签概率,所述相同字符为所述第一字符串和所述第二字符串中均包含的字符,且所述第一字符串包含的该字符和所述第二字符串包含的该字符在所述多个字符中的位置相同;
根据所述第一字符串对所述原始概率矩阵进行调整,得到第一概率矩阵,并根据所述第二字符串对所述原始概率矩阵进行调整,得到第二概率矩阵;
根据所述第一概率矩阵,所述第二概率矩阵以及所述分词模型对应的转移概率矩阵,确定所述待分词语句的目标分词结果,所述转移概率矩阵包括待转移分词标签对应字符,转移至所述多个预设分词标签中每个预设分词标签对应字符的转移概率,所述待转移分词标签为所述多个预设分词标签中的标签。
可选地,所述根据所述多个字符,通过预先训练的分词模型,确定原始概率矩阵包括:
将所述多个字符,作为所述预先训练的分词模型的输入,得到所述分词模型输出的所述多个字符中每个字符对应的多个所述预设分词标签的标签概率;
根据所述多个字符中每个字符对应的多个所述预设分词标签的标签概率,确定所述原始概率矩阵。
可选地,所述第一字符串包括多个第一字符,所述第二字符串包括多个第二字符,每个所述第一字符对应一个第一预设分词标签,每个所述第二字符对应一个第二预设分词标签;所述根据所述第一字符串对所述原始概率矩阵进行调整,得到第一概率矩阵,并根据所述第二字符串对所述原始概率矩阵进行调整,得到第二概率矩阵包括:
针对每个所述第一字符,根据该第一字符对应的多个所述标签概率中最大的标签概率,以及预设调整系数,确定该第一字符对应的第一标签概率;
将所述第一标签概率作为该第一字符对应的所述第一预设分词标签的标签概率;
针对每个所述第二字符,根据该第二字符对应的多个所述标签概率中最大的标签概率,以及预设调整系数,确定该第二字符对应的第二标签概率;
将所述第二标签概率作为该第二字符对应的所述第二预设分词标签的标签概率。
可选地,所述根据所述第一概率矩阵,所述第二概率矩阵以及所述分词模型对应的转移概率矩阵,确定所述待分词语句的目标分词结果包括:
根据所述第一概率矩阵和所述转移概率矩阵,确定所述多个字符对应的第一候选分词结果,并根据所述第二概率矩阵和所述转移概率矩阵,确定所述多个字符对应的第二候选分词结果;
根据所述第一候选分词结果和所述第二候选分词结果,确定所述待分词语句的目标分词结果。
可选地,所述根据所述第一概率矩阵和所述转移概率矩阵,确定所述多个字符对应的第一候选分词结果,并根据所述第二概率矩阵和所述转移概率矩阵,确定所述多个字符对应的第二候选分词结果包括:
根据所述第一概率矩阵包括的所述多个字符中每个字符对应的多个所述预设分词标签的标签概率,以及所述待转移分词标签对应字符,转移至所述多个预设分词标签中每个所述预设分词标签对应字符的转移概率,利用维特比算法,确定所述第一候选分词结果和所述第一候选分词结果的第一分词得分;
根据所述第二概率矩阵包括的所述多个字符中每个字符对应的多个所述预设分词标签的标签概率,以及所述待转移分词标签对应字符,转移至所述多个预设分词标签中每个所述预设分词标签对应字符的转移概率,利用所述维特比算法,确定所述第二候选分词结果和所述第二候选分词结果的第二分词得分;
所述根据所述第一候选分词结果和所述第二候选分词结果,确定所述待分词语句的目标分词结果包括:
将所述第一候选分词结果和所述第二候选分词结果中,分词得分最高的候选分词结果作为所述目标分词结果。
根据本公开实施例的第二方面,提供一种分词装置,所述装置包括:
匹配模块,被配置为按照第一字符方向确定待分词语句中与多个预设字符串匹配的第一字符串,并按照第二字符方向确定待分词语句中与所述多个预设字符串匹配的第二字符串;所述第一字符方向为由所述待分词语句包括的多个字符中,首个字符指向最后一个字符的方向,所述第二字符方向与所述第一字符方向相反;
处理模块,被配置为在所述第一字符串和所述第二字符串包括相同字符的情况下,根据所述多个字符,通过预先训练的分词模型,确定原始概率矩阵;所述原始概率矩阵包括所述多个字符中每个字符对应的多个预设分词标签的标签概率,所述相同字符为所述第一字符串和所述第二字符串中均包含的字符,且所述第一字符串包含的该字符和所述第二字符串包含的该字符在所述多个字符中的位置相同;
调整模块,被配置为根据所述第一字符串对所述原始概率矩阵进行调整,得到第一概率矩阵,并根据所述第二字符串对所述原始概率矩阵进行调整,得到第二概率矩阵;
确定模块,被配置为根据所述第一概率矩阵,所述第二概率矩阵以及所述分词模型对应的转移概率矩阵,确定所述待分词语句的目标分词结果,所述转移概率矩阵包括待转移分词标签对应字符,转移至所述多个预设分词标签中每个预设分词标签对应字符的转移概率,所述待转移分词标签为所述多个预设分词标签中的标签。
可选地,所述处理模块包括:
第一处理子模块,被配置为将所述多个字符,作为所述预先训练的分词模型的输入,得到所述分词模型输出的所述多个字符中每个字符对应的多个所述预设分词标签的标签概率;
第二处理子模块,被配置为根据所述多个字符中每个字符对应的多个所述预设分词标签的标签概率,确定所述原始概率矩阵。
可选地,所述第一字符串包括多个第一字符,所述第二字符串包括多个第二字符,每个所述第一字符对应一个第一预设分词标签,每个所述第二字符对应一个第二预设分词标签;所述调整模块包括:
第一调整子模块,被配置为针对每个所述第一字符,根据该第一字符对应的多个所述标签概率中最大的标签概率,以及预设调整系数,确定该第一字符对应的第一标签概率;
所述第一调整子模块,还被配置为将所述第一标签概率作为该第一字符对应的所述第一预设分词标签的标签概率;
第二调整子模块,被配置为针对每个所述第二字符,根据该第二字符对应的多个所述标签概率中最大的标签概率,以及预设调整系数,确定该第二字符对应的第二标签概率;
所述第二调整子模块,还被配置为将所述第二标签概率作为该第二字符对应的所述第二预设分词标签的标签概率。
可选地,所述确定模块包括:
第一确定子模块,被配置为根据所述第一概率矩阵和所述转移概率矩阵,确定所述多个字符对应的第一候选分词结果,并根据所述第二概率矩阵和所述转移概率矩阵,确定所述多个字符对应的第二候选分词结果;
第二确定子模块,被配置为根据所述第一候选分词结果和所述第二候选分词结果,确定所述待分词语句的目标分词结果。
可选地,所述第一确定子模块被配置为:
根据所述第一概率矩阵包括的所述多个字符中每个字符对应的多个所述预设分词标签的标签概率,以及所述待转移分词标签对应字符,转移至所述多个预设分词标签中每个所述预设分词标签对应字符的转移概率,利用维特比算法,确定所述第一候选分词结果和所述第一候选分词结果的第一分词得分;
根据所述第二概率矩阵包括的所述多个字符中每个字符对应的多个所述预设分词标签的标签概率,以及所述待转移分词标签对应字符,转移至所述多个预设分词标签中每个所述预设分词标签对应字符的转移概率,利用所述维特比算法,确定所述第二候选分词结果和所述第二候选分词结果的第二分词得分;
所述第二确定子模块被配置为:
将所述第一候选分词结果和所述第二候选分词结果中,分词得分最高的候选分词结果作为所述目标分词结果。
根据本公开实施例的第三方面,提供一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行本公开第一方面所提供的分词方法的步骤。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现本公开第一方面所提供的分词方法的步骤。
本公开的实施例提供的技术方案可以包括以下有益效果:本公开首先通过按照第一字符方向确定待分词语句中与多个预设字符串匹配的第一字符串,并按照第二字符方向确定待分词语句中与多个预设字符串匹配的第二字符串,然后在第一字符串和第二字符串包括相同字符的情况下,根据多个字符,通过预先训练的分词模型,确定原始概率矩阵,之后根据第一字符串对原始概率矩阵进行调整,得到第一概率矩阵,并根据第二字符串对原始概率矩阵进行调整,得到第二概率矩阵,最后根据第一概率矩阵,第二概率矩阵以及分词模型对应的转移概率矩阵,确定待分词语句的目标分词结果。本公开通过第一字符方向确定的第一字符串和第二字符方向确定的第二字符串,对分词结果进行干预,来选取合适的分词结果,能够避免由于第一字符串和第二字符串包括相同字符导致的分词结果出现错误,提高了对待分词语句进行分词的灵活度和准确度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种分词方法的流程图。
图2是图1所示实施例示出的一种步骤103的流程图。
图3是图1所示实施例示出的一种步骤104的流程图。
图4是根据一示例性实施例示出的一种分词装置的框图。
图5是图4所示实施例示出的一种处理模块的框图。
图6是图4所示实施例示出的一种调整模块的框图。
图7是图4所示实施例示出的一种确定模块的框图。
图8是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在介绍本公开提供的分词方法、装置、存储介质和电子设备之前,首先对本公开各个实施例所涉及应用场景进行介绍。该应用场景可以是对待分词语句进行分词的场景,例如智能搜索、机器翻译、语音合成以及自动校对等场景。当前,在对无明显的词语分词标记的待分词语句进行处理时,通常需要使用分词工具对待分词语句进行分词处理,以将待分词语句切分成一个个单独的词,即将字串转变成词串。相关技术中,主要是通过引入用户词典的方式,使用强制干预算法,来对分词结果进行干预,以提高分词效果。强制干预算法是以用户提供的用户词典为核心,首先扫描待分词语句的分词结果,若发现存在和用户词典匹配的字符串,且该字符串前后没有用于分词的分词标记(例如,分隔符),则在该字符串前后添加分词标记,以确保该字符串作为独立的分词结果出现。
然而,强制干预算法忽略了原本的分词信息,会根据匹配到的所有字符串,对待分词语句进行干预。当用户词典中的字符串存在交叠关系时(即用户词典中的某个字符串,包含用户词典中的另一个字符串中的部分字符时),强制干预算法可能会输出错误的干预结果,进而导致分词结果出现错误,降低了对待分词语句进行分词的灵活度和准确度。例如,在待分词语句为中文语句的情况下,若待分词语句为“结婚的和尚未结婚的人”,且用户词典中存在词语“和尚”和“尚未”,采用强制干预算法对分词结果进行干预,可能会出现:“结婚/的/和尚未/结婚/的/人”,“结婚/的/和/尚/未/结婚/的/人”和“结婚/的/和尚/未/结婚/的/人”这三类错误的分词结果。
为了解决相关技术中存在的问题,本公开通过第一字符方向确定的第一字符串和第二字符方向确定的第二字符串,对分词结果进行干预,来选取合适的分词结果,能够避免由于第一字符串和第二字符串包括相同字符导致的分词结果出现错误,提高了对待分词语句进行分词的灵活度和准确度。
图1是根据一示例性实施例示出的一种分词方法的流程图。如图1所示,该方法可以包括以下步骤:
在步骤101中,按照第一字符方向确定待分词语句中与多个预设字符串匹配的第一字符串,并按照第二字符方向确定待分词语句中与多个预设字符串匹配的第二字符串。
其中,第一字符方向为由待分词语句包括的多个字符中,首个字符指向最后一个字符的方向,第二字符方向与第一字符方向相反。
举例来说,为了避免由于用户词典中的词之间存在交叠关系导致的分词结果出现错误,可以根据待分词语句包含的存在交叠关系的两个字符串,分别对待分词语句的分词结果进行干预,得到这两个字符串中每个字符串对应的分词结果,并从这两个字符串中每个字符串对应的分词结果中选取合适的分词结果作为最终的分词结果,以避免分词结果出现错误,提高对待分词语句进行分词的灵活度和准确度。具体的,首先可以使用预设匹配算法,按照第一字符方向,确定待分词语句中是否存在与多个预设字符串匹配的第一字符串。同时按照第二字符方向,确定待分词语句中是否存在与多个预设字符串匹配的第二字符串。
其中,待分词语句可以是任一种无明显的词语分词标记的语句(例如,中文语句、日文语句以及藏文语句等均没有明确的区分词语的词语分词标记),多个预设字符串可以是用户词典中包括的字符串,用户词典可以理解为用户根据个人需求定义的字符串集合。当待分词语句为中文语句时(即进行中文分词时),多个预设字符串可以是用户预先定义的多个词语,待分词语句包括的字符为单独的汉字,第一字符串、第二字符串为单独的词语。预设匹配算法例如可以是AC(英文:Aho–Corasick)自动机算法。
在步骤102中,在第一字符串和第二字符串包括相同字符的情况下,根据多个字符,通过预先训练的分词模型,确定原始概率矩阵。
其中,原始概率矩阵包括多个字符中每个字符对应的多个预设分词标签的标签概率,相同字符为第一字符串和第二字符串中均包含的字符,且第一字符串包含的该字符和第二字符串包含的该字符在多个字符中的位置相同。
在本步骤中,可以进一步判断第一字符串和第二字符串是否包括相同字符,判断第一字符串和第二字符串是否包括相同字符可以理解为,判断第一字符串和第二字符串在待分词语句中是否出现了交叠。若第一字符串和第二字符串包括相同字符,则说明第一字符串和第二字符串在待分词语句中出现了交叠,否则,则说明第一字符串和第二字符串在待分词语句中没有出现交叠。以待分词语句为“结婚的和尚未结婚的人”为例,当多个预设字符串包括‘和尚’和‘尚未’时,按照第一字符顺序确定的第一字符串为‘和尚’,按照第二字符顺序确定的第二字符串为‘尚未’,第一字符串‘和尚’和第二字符串‘尚未’在待分词语句中出现了交叠,且第一字符串和第二字符串包括的相同字符为‘尚’。进一步的,可以采用线段树的方式记录相同字符的位置,以快速确定第一字符串和第二字符串包括的相同字符。
在第一字符串和第二字符串包括相同字符的情况下,可以将多个字符,作为预先训练的分词模型的输入(分词模型例如可以采用序列标注模型),得到分词模型输出的多个字符中每个字符对应的多个预设分词标签的标签概率。预设分词标签用于表示其对应的字符在该字符所在的字符串中的位置。例如,可以用X、B、M、E、S五个字母来分别表示五个不同的预设分词标签。其中,预设分词标签X用于表示其对应的字符为占位符,预设分词标签B用于表示其对应的字符为该字符所在的字符串中的第一个字符,M用于表示其对应的字符为该字符所在的字符串中,除第一个字符和最后一个字符外的中间字符(此时,该字符所在的字符串中至少包括3个以上的字符),E用于表示其对应的字符为该字符所在的字符串中的最后一个字符,S用于表示其对应的字符为该字符所在的字符串中的唯一字符。
然后可以根据多个字符中每个字符对应的多个预设分词标签的标签概率,确定原始概率矩阵,字符对应的某一预设分词标签的标签概率越大,则字符对应于该预设分词标签的可能性越大。
在步骤103中,根据第一字符串对原始概率矩阵进行调整,得到第一概率矩阵,并根据第二字符串对原始概率矩阵进行调整,得到第二概率矩阵。
示例地,由于预设字符串为用户预先设定好的字符串,则预设字符串所包括的每个字符对应的预设分词标签是确定的。因此,可以根据第一字符串对应的预设字符串,来确定第一字符串包括的每个第一字符对应的第一预设分词标签。同时还可以根据第二字符串对应的预设字符串,来确定第二字符串包括的每个第二字符对应的第二预设分词标签。
然后,可以根据第一字符串包括的每个第一字符,对原始概率矩阵包括的该第一字符对应的第一预设分词标签的标签概率进行调整,得到第一概率矩阵。例如,可以将第一字符对应的第一预设分词标签的标签概率,调整为第一字符对应的多个预设分词标签的标签概率中最大的标签概率。同时,还可以根据第二字符串包括的每个第二字符,对原始概率矩阵包括的该第二字符对应的第二预设分词标签的标签概率进行调整,得到第二概率矩阵。例如,可以将第二字符对应的第二预设分词标签的标签概率,调整为第二字符对应的多个预设分词标签的标签概率中最大的标签概率。
在步骤104中,根据第一概率矩阵,第二概率矩阵以及分词模型对应的转移概率矩阵,确定待分词语句的目标分词结果。
其中,转移概率矩阵包括待转移分词标签对应字符,转移至多个预设分词标签中每个预设分词标签对应字符的转移概率,待转移分词标签为多个预设分词标签中的标签。
举例来说,在确定第一概率矩阵和第二概率矩阵之后,可以根据第一概率矩阵和转移概率矩阵,利用预设算法(例如:维特比算法),确定根据第一字符串对待分词语句进行干预后的分词结果,以及该分词结果对应的分词得分。同时还可以根据第二概率矩阵和转移概率矩阵,利用预设算法,确定根据第二字符串对待分词语句进行干预后的分词结果和该分词结果对应的分词得分。然后可以将分词得分高的分词结果作为目标分词结果。转移概率矩阵为在分词模型训练完成后得到的固定矩阵,用于表征多个预设转移标签之间的联系和结构信息。可以理解为,转移概率矩阵表示了在待分词语句中,某个预设转移标签对应的字符之后的字符对应的每个预设转移标签的概率。
以多个预设分词标签包括X、B、M、E、S五个预设分词标签为例进行说明,转移概率矩阵可以如表1所示:
表1
X | S | B | M | E | |
X | -0.59 | -1.05 | -1.39 | -1.37 | -0.92 |
S | -1.46 | 2.15 | 2.06 | -19.55 | -19.77 |
B | -1.42 | -18.91 | -19.31 | 1.48 | 1.87 |
M | -1.76 | -18.77 | -19.37 | 1.39 | 1.46 |
E | -1.11 | 1.82 | 2.38 | -20.21 | -20.01 |
综上所述,本公开首先通过按照第一字符方向确定待分词语句中与多个预设字符串匹配的第一字符串,并按照第二字符方向确定待分词语句中与多个预设字符串匹配的第二字符串,然后在第一字符串和第二字符串包括相同字符的情况下,根据多个字符,通过预先训练的分词模型,确定原始概率矩阵,之后根据第一字符串对原始概率矩阵进行调整,得到第一概率矩阵,并根据第二字符串对原始概率矩阵进行调整,得到第二概率矩阵,最后根据第一概率矩阵,第二概率矩阵以及分词模型对应的转移概率矩阵,确定待分词语句的目标分词结果。本公开通过第一字符方向确定的第一字符串和第二字符方向确定的第二字符串,对分词结果进行干预,来选取合适的分词结果,能够避免由于第一字符串和第二字符串包括相同字符导致的分词结果出现错误,提高了对待分词语句进行分词的灵活度和准确度。
图2是图1所示实施例示出的一种步骤103的流程图。如图2所示,第一字符串包括多个第一字符,第二字符串包括多个第二字符,每个第一字符对应一个第一预设分词标签,每个第二字符对应一个第二预设分词标签,步骤103可以包括以下步骤:
在步骤1031中,针对每个第一字符,根据该第一字符对应的多个标签概率中最大的标签概率,以及预设调整系数,确定该第一字符对应的第一标签概率。
在步骤1032中,将第一标签概率作为该第一字符对应的第一预设分词标签的标签概率。
示例地,在对原始概率矩阵进行调整时,可以先确定原始概率矩阵包括的每个第一字符对应的多个标签概率中最大的标签概率。之后根据每个第一字符对应的最大的标签概率,以及预设调整系数,利用第一预设公式,确定该第一字符对应的第一标签概率。其中,预设公式包括:P1=Pm1*k,P1为第一标签概率,Pm1为该第一字符对应的最大的标签概率,k为预设调整系数。然后将每个第一字符对应的第一标签概率作为该第一字符对应的第一预设分词标签的标签概率。
在步骤1033中,针对每个第二字符,根据该第二字符对应的多个标签概率中最大的标签概率,以及预设调整系数,确定该第二字符对应的第二标签概率。
在步骤1034中,将第二标签概率作为该第二字符对应的第二预设分词标签的标签概率。
进一步的,还可以确定原始概率矩阵包括的每个第二字符对应的多个标签概率中最大的标签概率。之后根据每个第二字符对应的最大的标签概率,以及预设调整系数,利用第二预设公式,确定该第二字符对应的第二标签概率。其中,预设公式包括:P2=Pm2*k,P2为第一标签概率,Pm2为该第二字符对应的最大的标签概率,k为预设调整系数。然后将每个第二字符对应的第二标签概率作为该第二字符对应的第二预设分词标签的标签概率。
以待分词语句为“结婚的和尚未”,多个预设分词标签包括X、B、M、E、S五个预设分词标签,且预设调整系数等于2为例进行说明,原始概率矩阵可以如表2所示:
表2
X | S | B | M | E | |
结 | -141.79 | -0.43 | 7.11 | -27.31 | -27.59 |
婚 | -82.25 | -0.78 | 0.86 | 3.53 | 4.23 |
的 | -150.29 | 8.39 | -3.61 | -1.16 | -5.26 |
和 | -75.23 | 1.05 | 1.60 | 0.45 | -1.50 |
尚 | -123.29 | 0.59 | 2.80 | -2.28 | 2.93 |
未 | -63.73 | 0.145 | -2.44 | -1.16 | 1.73 |
当多个预设字符串包括‘和尚’和‘尚未’时,第一字符串为‘和尚’,第一字符包括‘和’、‘尚’,第一字符‘和’对应的预设分词标签为B,第一字符‘尚’对应的预设分词标签为E。第二字符串为‘尚未’,第二字符包括‘尚’、‘未’,第二字符‘尚’对应的预设分词标签为B,‘未’对应的预设分词标签为E。那么第一字符‘和’对应的多个预设分词中最大的标签概率为:Pm1=max{-75.23,1.05,1.60,0.45,-1.50}=1.6,则第一字符‘和’对应的预设分词标签B的第一标签概率为:P1=Pm1*k=1.6*2=3.2,同理可得,第一字符‘尚’对应的预设分词标签为E的第一标签概率为5.86,第二字符‘尚’对应的预设分词标签B的第一标签概率为5.86,第二字符‘未’对应的预设分词标签B的第一标签概率为3.46。然后,可以根据第一字符‘和’对应的第一标签概率以及第一字符‘尚’对应的第一标签概率,对原始概率矩阵进行调整,得到的第一概率矩阵可以如表3所示。同时可以根据第二字符‘尚’对应的第一标签概率以及第二字符‘未’对应的第一标签概率,对原始概率矩阵进行调整,得到的第二概率矩阵可以如表4所示。
表3
X | S | B | M | E | |
结 | -141.79 | -0.43 | 7.11 | -27.31 | -27.59 |
婚 | -82.25 | -0.78 | 0.86 | 3.53 | 4.23 |
的 | -150.29 | 8.39 | -3.61 | -1.16 | -5.26 |
和 | -75.23 | 1.05 | 3.20 | 0.45 | -1.50 |
尚 | -123.29 | 0.59 | 2.80 | -2.28 | 5.86 |
未 | -63.73 | 0.145 | -2.44 | -1.16 | 1.73 |
表4
X | S | B | M | E | |
结 | -141.79 | -0.43 | 7.11 | -27.31 | -27.59 |
婚 | -82.25 | -0.78 | 0.86 | 3.53 | 4.23 |
的 | -150.29 | 8.39 | -3.61 | -1.16 | -5.26 |
和 | -75.23 | 1.05 | 1.60 | 0.45 | -1.50 |
尚 | -123.29 | 0.59 | 5.86 | -2.28 | 2.93 |
未 | -63.73 | 0.145 | -2.44 | -1.16 | 3.46 |
图3是图1所示实施例示出的一种步骤103的流程图。如图3所示,步骤104可以包括以下步骤:
在步骤1041中,根据第一概率矩阵和转移概率矩阵,确定多个字符对应的第一候选分词结果,并根据第二概率矩阵和转移概率矩阵,确定多个字符对应的第二候选分词结果。
举例来说,在确定第一概率矩阵和第二概率矩阵之后,可以根据第一概率矩阵包括的多个字符中每个字符对应的多个预设分词标签的标签概率,以及待转移分词标签对应字符,转移至多个预设分词标签中每个预设分词标签对应字符的转移概率,利用维特比算法,确定第一候选分词结果和第一候选分词结果的第一分词得分。具体的,可以构建待分词语句对应的所有可能的第一标签序列,每个第一标签序列包括依次与待分词语句包括的每个字符一一对应的第一待选分词标签,第一待选分词标签可以为多个预设分词标签中的任一个。然后,可以利用维特比算法,选出所有第一标签序列中概率最高的第一标签序列,并将该第一标签序列作为第一候选分词结果,同时将该第一标签序列的概率作为第一分词得分。其中,第一标签序列的概率为第一标签序列中,每个字符对应的待选分词标签的标签概率,以及由首个第一待选分词标签对应字符按顺序依次转移至最后一个第一待选分词标签对应字符的多个转移概率之和。
同时,还可以根据第二概率矩阵包括的多个字符中每个字符对应的多个预设分词标签的标签概率,以及待转移分词标签对应字符,转移至多个预设分词标签中每个预设分词标签对应字符的转移概率,利用维特比算法,确定第二候选分词结果和第二候选分词结果的第二分词得分。具体的,可以构建待分词语句对应的所有可能的第二标签序列,每个第二标签序列包括依次与待分词语句包括的每个字符一一对应的第二待选分词标签,第二待选分词标签可以为多个预设分词标签中的任一个。然后,可以利用维特比算法,选出所有第二标签序列中概率最高的第二标签序列,并将该第二标签序列作为第二候选分词结果,同时将该第二标签序列的概率作为第二分词得分。其中,第二标签序列的概率为第二标签序列中,每个字符对应的待选分词标签的标签概率,以及由首个第二待选分词标签对应字符按顺序依次转移至最后一个第二待选分词标签对应字符的多个转移概率之和。
在步骤1042中,根据第一候选分词结果和第二候选分词结果,确定待分词语句的目标分词结果。
进一步的,可以将第一候选分词结果和第二候选分词结果中,分词得分最高的候选分词结果作为目标分词结果。例如,若待分词语句为“结婚的和尚未结婚的人”,通过以上步骤,可以确定第一候选分词结果的第一分词得分小于第二候选分词结果的第一分词得分(即选择根据第二字符串“尚未”对待分词语句的分词结果进行干预),最终得到的目标分词结果为“结婚/的/和/尚未/结婚/的/人”。
可选地,训练分词模型的方式可以是:首先构建训练样本集,训练样本集可以包括分词语句样本,以及分词语句样本对应的分词结果样本。分词语句样本包括多个语句样本,每个语句样本包括多个字符样本,分词结果样本包括与每个语句样本对应的标签样本,标签样本包括预先标注好的每个字符样本对应的预设分词标签。在获取到训练样本集之后,可以将分词语句样本作为预设训练模型的输入,同时将分词结果样本作为预设训练模型的输出,来对预设训练模型进行预训练,得到分词模型。
综上所述,本公开首先通过按照第一字符方向确定待分词语句中与多个预设字符串匹配的第一字符串,并按照第二字符方向确定待分词语句中与多个预设字符串匹配的第二字符串,然后在第一字符串和第二字符串包括相同字符的情况下,根据多个字符,通过预先训练的分词模型,确定原始概率矩阵,之后根据第一字符串对原始概率矩阵进行调整,得到第一概率矩阵,并根据第二字符串对原始概率矩阵进行调整,得到第二概率矩阵,最后根据第一概率矩阵,第二概率矩阵以及分词模型对应的转移概率矩阵,确定待分词语句的目标分词结果。本公开通过第一字符方向确定的第一字符串和第二字符方向确定的第二字符串,对分词结果进行干预,来选取合适的分词结果,能够避免由于第一字符串和第二字符串包括相同字符导致的分词结果出现错误,提高了对待分词语句进行分词的灵活度和准确度。
图4是根据一示例性实施例示出的一种分词装置的框图。如图4所示,该装置200包括匹配模块201,处理模块202,调整模块203和确定模块204。
匹配模块201,被配置为按照第一字符方向确定待分词语句中与多个预设字符串匹配的第一字符串,并按照第二字符方向确定待分词语句中与多个预设字符串匹配的第二字符串。第一字符方向为由待分词语句包括的多个字符中,首个字符指向最后一个字符的方向,第二字符方向与第一字符方向相反。
处理模块202,被配置为在第一字符串和第二字符串包括相同字符的情况下,根据多个字符,通过预先训练的分词模型,确定原始概率矩阵。原始概率矩阵包括多个字符中每个字符对应的多个预设分词标签的标签概率,相同字符为第一字符串和第二字符串中均包含的字符,且第一字符串包含的该字符和第二字符串包含的该字符在多个字符中的位置相同。
调整模块203,被配置为根据第一字符串对原始概率矩阵进行调整,得到第一概率矩阵,并根据第二字符串对原始概率矩阵进行调整,得到第二概率矩阵。
确定模块204,被配置为根据第一概率矩阵,第二概率矩阵以及分词模型对应的转移概率矩阵,确定待分词语句的目标分词结果。转移概率矩阵包括待转移分词标签对应字符,转移至多个预设分词标签中每个预设分词标签对应字符的转移概率,待转移分词标签为多个预设分词标签中的标签。
图5是图4所示实施例示出的一种处理模块的框图。如图5所示,处理模块202包括第一处理子模块2021和第二处理子模块2022。
第一处理子模块2021,被配置为将多个字符,作为预先训练的分词模型的输入,得到分词模型输出的多个字符中每个字符对应的多个预设分词标签的标签概率。
第二处理子模块2022,被配置为根据多个字符中每个字符对应的多个预设分词标签的标签概率,确定原始概率矩阵。
图6是图4所示实施例示出的一种调整模块的框图。如图6所示,第一字符串包括多个第一字符,第二字符串包括多个第二字符,每个第一字符对应一个第一预设分词标签,每个第二字符对应一个第二预设分词标签,调整模块203包括第一调整子模块2031和第二调整子模块2032。
第一调整子模块2031,被配置为针对每个第一字符,根据该第一字符对应的多个标签概率中最大的标签概率,以及预设调整系数,确定该第一字符对应的第一标签概率。
第一调整子模块2031,还被配置为将第一标签概率作为该第一字符对应的第一预设分词标签的标签概率。
第二调整子模块2032,被配置为针对每个第二字符,根据该第二字符对应的多个标签概率中最大的标签概率,以及预设调整系数,确定该第二字符对应的第二标签概率。
第二调整子模块2032,还被配置为将第二标签概率作为该第二字符对应的第二预设分词标签的标签概率。
图7是图4所示实施例示出的一种确定模块的框图。如图7所示,确定模块204包括第一确定子模块2041和第二确定子模块2042。
第一确定子模块2041,被配置为根据第一概率矩阵和转移概率矩阵,确定多个字符对应的第一候选分词结果,并根据第二概率矩阵和转移概率矩阵,确定多个字符对应的第二候选分词结果。
第二确定子模块2042,被配置为根据第一候选分词结果和第二候选分词结果,确定待分词语句的目标分词结果。
可选地,第一确定子模块2041被配置为:
根据第一概率矩阵包括的多个字符中每个字符对应的多个预设分词标签的标签概率,以及待转移分词标签对应字符,转移至多个预设分词标签中每个预设分词标签对应字符的转移概率,利用维特比算法,确定第一候选分词结果和第一候选分词结果的第一分词得分。
根据第二概率矩阵包括的多个字符中每个字符对应的多个预设分词标签的标签概率,以及待转移分词标签对应字符,转移至多个预设分词标签中每个预设分词标签对应字符的转移概率,利用维特比算法,确定第二候选分词结果和第二候选分词结果的第二分词得分。
第二确定子模块2042被配置为:
将第一候选分词结果和第二候选分词结果中,分词得分最高的候选分词结果作为目标分词结果。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
综上所述,本公开首先通过按照第一字符方向确定待分词语句中与多个预设字符串匹配的第一字符串,并按照第二字符方向确定待分词语句中与多个预设字符串匹配的第二字符串,然后在第一字符串和第二字符串包括相同字符的情况下,根据多个字符,通过预先训练的分词模型,确定原始概率矩阵,之后根据第一字符串对原始概率矩阵进行调整,得到第一概率矩阵,并根据第二字符串对原始概率矩阵进行调整,得到第二概率矩阵,最后根据第一概率矩阵,第二概率矩阵以及分词模型对应的转移概率矩阵,确定待分词语句的目标分词结果。本公开通过第一字符方向确定的第一字符串和第二字符方向确定的第二字符串,对分词结果进行干预,来选取合适的分词结果,能够避免由于第一字符串和第二字符串包括相同字符导致的分词结果出现错误,提高了对待分词语句进行分词的灵活度和准确度。
本公开还提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现本公开提供的分词方法的步骤。
图8是根据一示例性实施例示出的一种电子设备的框图。例如,电子设备800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图8,电子设备800可以包括以下一个或多个组件:处理组件802,存储器804,电力组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制电子设备800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成上述的分词方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在电子设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件806为电子设备800的各种组件提供电力。电力组件806可以包括电源管理系统,一个或多个电源,及其他与为电子设备800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当电子设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当电子设备800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为电子设备800提供各个方面的状态评估。例如,传感器组件814可以检测到电子设备800的打开/关闭状态,组件的相对定位,例如所述组件为电子设备800的显示器和小键盘,传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变,用户与电子设备800接触的存在或不存在,电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的分词方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由电子设备800的处理器820执行以完成上述的分词方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的分词方法的代码部分。
本领域技术人员在考虑说明书及实践本公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (12)
1.一种分词方法,其特征在于,所述方法包括:
按照第一字符方向确定待分词语句中与多个预设字符串匹配的第一字符串,并按照第二字符方向确定待分词语句中与所述多个预设字符串匹配的第二字符串;所述第一字符方向为由所述待分词语句包括的多个字符中,首个字符指向最后一个字符的方向,所述第二字符方向与所述第一字符方向相反;
在所述第一字符串和所述第二字符串包括相同字符的情况下,根据所述多个字符,通过预先训练的分词模型,确定原始概率矩阵;所述原始概率矩阵包括所述多个字符中每个字符对应的多个预设分词标签的标签概率,所述相同字符为所述第一字符串和所述第二字符串中均包含的字符,且所述第一字符串包含的该字符和所述第二字符串包含的该字符在所述多个字符中的位置相同;
根据所述第一字符串对所述原始概率矩阵进行调整,得到第一概率矩阵,并根据所述第二字符串对所述原始概率矩阵进行调整,得到第二概率矩阵;
根据所述第一概率矩阵,所述第二概率矩阵以及所述分词模型对应的转移概率矩阵,确定所述待分词语句的目标分词结果,所述转移概率矩阵包括待转移分词标签对应字符,转移至所述多个预设分词标签中每个预设分词标签对应字符的转移概率,所述待转移分词标签为所述多个预设分词标签中的标签。
2.根据权利要求1所述的方法,其特征在于,所述根据所述多个字符,通过预先训练的分词模型,确定原始概率矩阵包括:
将所述多个字符,作为所述预先训练的分词模型的输入,得到所述分词模型输出的所述多个字符中每个字符对应的多个所述预设分词标签的标签概率;
根据所述多个字符中每个字符对应的多个所述预设分词标签的标签概率,确定所述原始概率矩阵。
3.根据权利要求1所述的方法,其特征在于,所述第一字符串包括多个第一字符,所述第二字符串包括多个第二字符,每个所述第一字符对应一个第一预设分词标签,每个所述第二字符对应一个第二预设分词标签;所述根据所述第一字符串对所述原始概率矩阵进行调整,得到第一概率矩阵,并根据所述第二字符串对所述原始概率矩阵进行调整,得到第二概率矩阵包括:
针对每个所述第一字符,根据该第一字符对应的多个所述标签概率中最大的标签概率,以及预设调整系数,确定该第一字符对应的第一标签概率;
将所述第一标签概率作为该第一字符对应的所述第一预设分词标签的标签概率;
针对每个所述第二字符,根据该第二字符对应的多个所述标签概率中最大的标签概率,以及预设调整系数,确定该第二字符对应的第二标签概率;
将所述第二标签概率作为该第二字符对应的所述第二预设分词标签的标签概率。
4.根据权利要求1所述的方法,其特征在于,所述根据所述第一概率矩阵,所述第二概率矩阵以及所述分词模型对应的转移概率矩阵,确定所述待分词语句的目标分词结果包括:
根据所述第一概率矩阵和所述转移概率矩阵,确定所述多个字符对应的第一候选分词结果,并根据所述第二概率矩阵和所述转移概率矩阵,确定所述多个字符对应的第二候选分词结果;
根据所述第一候选分词结果和所述第二候选分词结果,确定所述待分词语句的目标分词结果。
5.根据权利要求4所述的方法,其特征在于,所述根据所述第一概率矩阵和所述转移概率矩阵,确定所述多个字符对应的第一候选分词结果,并根据所述第二概率矩阵和所述转移概率矩阵,确定所述多个字符对应的第二候选分词结果包括:
根据所述第一概率矩阵包括的所述多个字符中每个字符对应的多个所述预设分词标签的标签概率,以及所述待转移分词标签对应字符,转移至所述多个预设分词标签中每个所述预设分词标签对应字符的转移概率,利用维特比算法,确定所述第一候选分词结果和所述第一候选分词结果的第一分词得分;
根据所述第二概率矩阵包括的所述多个字符中每个字符对应的多个所述预设分词标签的标签概率,以及所述待转移分词标签对应字符,转移至所述多个预设分词标签中每个所述预设分词标签对应字符的转移概率,利用所述维特比算法,确定所述第二候选分词结果和所述第二候选分词结果的第二分词得分;
所述根据所述第一候选分词结果和所述第二候选分词结果,确定所述待分词语句的目标分词结果包括:
将所述第一候选分词结果和所述第二候选分词结果中,分词得分最高的候选分词结果作为所述目标分词结果。
6.一种分词装置,其特征在于,所述装置包括:
匹配模块,被配置为按照第一字符方向确定待分词语句中与多个预设字符串匹配的第一字符串,并按照第二字符方向确定待分词语句中与所述多个预设字符串匹配的第二字符串;所述第一字符方向为由所述待分词语句包括的多个字符中,首个字符指向最后一个字符的方向,所述第二字符方向与所述第一字符方向相反;
处理模块,被配置为在所述第一字符串和所述第二字符串包括相同字符的情况下,根据所述多个字符,通过预先训练的分词模型,确定原始概率矩阵;所述原始概率矩阵包括所述多个字符中每个字符对应的多个预设分词标签的标签概率,所述相同字符为所述第一字符串和所述第二字符串中均包含的字符,且所述第一字符串包含的该字符和所述第二字符串包含的该字符在所述多个字符中的位置相同;
调整模块,被配置为根据所述第一字符串对所述原始概率矩阵进行调整,得到第一概率矩阵,并根据所述第二字符串对所述原始概率矩阵进行调整,得到第二概率矩阵;
确定模块,被配置为根据所述第一概率矩阵,所述第二概率矩阵以及所述分词模型对应的转移概率矩阵,确定所述待分词语句的目标分词结果,所述转移概率矩阵包括待转移分词标签对应字符,转移至所述多个预设分词标签中每个预设分词标签对应字符的转移概率,所述待转移分词标签为所述多个预设分词标签中的标签。
7.根据权利要求6所述的装置,其特征在于,所述处理模块包括:
第一处理子模块,被配置为将所述多个字符,作为所述预先训练的分词模型的输入,得到所述分词模型输出的所述多个字符中每个字符对应的多个所述预设分词标签的标签概率;
第二处理子模块,被配置为根据所述多个字符中每个字符对应的多个所述预设分词标签的标签概率,确定所述原始概率矩阵。
8.根据权利要求6所述的装置,其特征在于,所述第一字符串包括多个第一字符,所述第二字符串包括多个第二字符,每个所述第一字符对应一个第一预设分词标签,每个所述第二字符对应一个第二预设分词标签;所述调整模块包括:
第一调整子模块,被配置为针对每个所述第一字符,根据该第一字符对应的多个所述标签概率中最大的标签概率,以及预设调整系数,确定该第一字符对应的第一标签概率;
所述第一调整子模块,还被配置为将所述第一标签概率作为该第一字符对应的所述第一预设分词标签的标签概率;
第二调整子模块,被配置为针对每个所述第二字符,根据该第二字符对应的多个所述标签概率中最大的标签概率,以及预设调整系数,确定该第二字符对应的第二标签概率;
所述第二调整子模块,还被配置为将所述第二标签概率作为该第二字符对应的所述第二预设分词标签的标签概率。
9.根据权利要求6所述的装置,其特征在于,所述确定模块包括:
第一确定子模块,被配置为根据所述第一概率矩阵和所述转移概率矩阵,确定所述多个字符对应的第一候选分词结果,并根据所述第二概率矩阵和所述转移概率矩阵,确定所述多个字符对应的第二候选分词结果;
第二确定子模块,被配置为根据所述第一候选分词结果和所述第二候选分词结果,确定所述待分词语句的目标分词结果。
10.根据权利要求9所述的装置,其特征在于,所述第一确定子模块被配置为:
根据所述第一概率矩阵包括的所述多个字符中每个字符对应的多个所述预设分词标签的标签概率,以及所述待转移分词标签对应字符,转移至所述多个预设分词标签中每个所述预设分词标签对应字符的转移概率,利用维特比算法,确定所述第一候选分词结果和所述第一候选分词结果的第一分词得分;
根据所述第二概率矩阵包括的所述多个字符中每个字符对应的多个所述预设分词标签的标签概率,以及所述待转移分词标签对应字符,转移至所述多个预设分词标签中每个所述预设分词标签对应字符的转移概率,利用所述维特比算法,确定所述第二候选分词结果和所述第二候选分词结果的第二分词得分;
所述第二确定子模块被配置为:
将所述第一候选分词结果和所述第二候选分词结果中,分词得分最高的候选分词结果作为所述目标分词结果。
11.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行权利要求1-5中任一项所述方法的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,该程序指令被处理器执行时实现权利要求1-5中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110304344.1A CN112861531B (zh) | 2021-03-22 | 2021-03-22 | 分词方法、装置、存储介质和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110304344.1A CN112861531B (zh) | 2021-03-22 | 2021-03-22 | 分词方法、装置、存储介质和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112861531A CN112861531A (zh) | 2021-05-28 |
CN112861531B true CN112861531B (zh) | 2023-11-14 |
Family
ID=75992100
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110304344.1A Active CN112861531B (zh) | 2021-03-22 | 2021-03-22 | 分词方法、装置、存储介质和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112861531B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109829162A (zh) * | 2019-01-30 | 2019-05-31 | 新华三大数据技术有限公司 | 一种文本分词方法及装置 |
WO2020244065A1 (zh) * | 2019-06-04 | 2020-12-10 | 平安科技(深圳)有限公司 | 基于人工智能的字向量定义方法、装置、设备及存储介质 |
-
2021
- 2021-03-22 CN CN202110304344.1A patent/CN112861531B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109829162A (zh) * | 2019-01-30 | 2019-05-31 | 新华三大数据技术有限公司 | 一种文本分词方法及装置 |
WO2020244065A1 (zh) * | 2019-06-04 | 2020-12-10 | 平安科技(深圳)有限公司 | 基于人工智能的字向量定义方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
基于字符的中文分词、词性标注和依存句法分析联合模型;郭振;张玉洁;苏晨;徐金安;;中文信息学报(06);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112861531A (zh) | 2021-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110580290B (zh) | 用于文本分类的训练集的优化方法及装置 | |
CN110941966A (zh) | 机器翻译模型的训练方法、装置及系统 | |
CN111832316B (zh) | 语义识别的方法、装置、电子设备和存储介质 | |
WO2019165832A1 (zh) | 文字信息处理方法、装置及终端 | |
CN109819288B (zh) | 广告投放视频的确定方法、装置、电子设备及存储介质 | |
CN111832315B (zh) | 语义识别的方法、装置、电子设备和存储介质 | |
CN107564526B (zh) | 处理方法、装置和机器可读介质 | |
CN111831806B (zh) | 语义完整性确定方法、装置、电子设备和存储介质 | |
CN108073573A (zh) | 一种机器翻译方法、装置和机器翻译系统训练方法、装置 | |
CN110069624B (zh) | 文本处理方法及装置 | |
CN111797262A (zh) | 诗词生成方法、装置、电子设备和存储介质 | |
CN112528671A (zh) | 语义分析方法、装置以及存储介质 | |
CN111160047A (zh) | 一种数据处理方法、装置和用于数据处理的装置 | |
CN104077597A (zh) | 图像分类方法及装置 | |
CN111832322A (zh) | 语句翻译方法、装置、电子设备和存储介质 | |
CN112735396A (zh) | 语音识别纠错方法、装置及存储介质 | |
CN113920293A (zh) | 信息识别方法、装置、电子设备及存储介质 | |
CN107832691B (zh) | 微表情识别方法及装置 | |
CN113420553A (zh) | 文本生成方法、装置、存储介质及电子设备 | |
CN113535969B (zh) | 语料扩充方法、装置、计算机设备及存储介质 | |
CN112328809A (zh) | 实体分类方法、装置及计算机可读存储介质 | |
CN112861531B (zh) | 分词方法、装置、存储介质和电子设备 | |
CN113923517B (zh) | 一种背景音乐生成方法、装置及电子设备 | |
CN112989819B (zh) | 中文文本分词方法、装置及存储介质 | |
CN117642817A (zh) | 识别音频数据类别的方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |