CN112949298B - 分词方法、装置、电子设备和可读存储介质 - Google Patents

分词方法、装置、电子设备和可读存储介质 Download PDF

Info

Publication number
CN112949298B
CN112949298B CN202110217357.5A CN202110217357A CN112949298B CN 112949298 B CN112949298 B CN 112949298B CN 202110217357 A CN202110217357 A CN 202110217357A CN 112949298 B CN112949298 B CN 112949298B
Authority
CN
China
Prior art keywords
semantic feature
word segmentation
feature dimension
character
segmentation model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110217357.5A
Other languages
English (en)
Other versions
CN112949298A (zh
Inventor
郑国凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vivo Mobile Communication Co Ltd
Original Assignee
Vivo Mobile Communication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vivo Mobile Communication Co Ltd filed Critical Vivo Mobile Communication Co Ltd
Priority to CN202110217357.5A priority Critical patent/CN112949298B/zh
Publication of CN112949298A publication Critical patent/CN112949298A/zh
Application granted granted Critical
Publication of CN112949298B publication Critical patent/CN112949298B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Character Input (AREA)

Abstract

本申请公开了一种分词方法、装置、电子设备和可读存储介质,该方法包括:接收输入第一字符的第一输入;在第一字符包括目标字符的情况下,对第一分词模型的语义特征维度进行筛选,得到包括第一语义特征维度的第二分词模型;基于第一语义特征维度增加目标字符对应的第二语义特征维度,获得第三分词模型;基于第三分词模型对第一字符分词,由于第三分词模型中语义特征维度包含了目标字符对应的语义特征维度,因此,在对第一字符进行分词时,可以充分考虑到目标字符对分词结果的影响,故得到的分词结果与实际词的偏差减小,提高了分词的准确性。

Description

分词方法、装置、电子设备和可读存储介质
技术领域
本申请属于分词技术领域,具体涉及一种分词方法、装置、电子设备和可读存储介质。
背景技术
中文分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。由于计算机不能识别中文文本的语义,所以必须将文本进行分词。在中文里,“词”和“词组”边界模糊。现代汉语的基本表达单元虽然为“词”,且以双字或者多字词居多。
但由于人们认识水平的不同,对词和短语的边界很难去区分,因此,存在部分词并未被收录起来,而上述词在进行分词时会被划分开,最终造成分词后所得到的词与实际词存在偏差,影响分词的准确性。
发明内容
本申请实施例的目的是提供一种分词方法、装置、电子设备和可读存储介质,能够解决相关技术方案中分词不准确的问题。
为了解决上述技术问题,本申请是这样实现的:
第一方面,本申请实施例提供了一种分词方法,该方法包括:接收输入第一字符的第一输入;在第一字符包括目标字符的情况下,对第一分词模型的语义特征维度进行筛选,得到包括第一语义特征维度的第二分词模型;基于第一语义特征维度增加目标字符对应的第二语义特征维度,获得第三分词模型;基于第三分词模型对第一字符分词。
第二方面,本申请实施例提供了一种分词装置,包括:接收单元,用于接收输入第一字符的第一输入;筛选单元,用于在第一字符包括目标字符的情况下,对第一分词模型的语义特征维度进行筛选,得到包括第一语义特征维度的第二分词模型;确定单元,用于基于第一语义特征维度增加目标字符对应的第二语义特征维度,获得第三分词模型;分词单元,用于基于第三分词模型对第一字符分词。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序或指令,程序或指令被处理器执行时实现如第一方面的分词方法的步骤。
第四方面,本申请实施例提供了一种可读存储介质,可读存储介质上存储程序或指令,程序或指令被处理器执行时实现如第一方面的分词方法的步骤。
第五方面,本申请实施例提供了一种芯片,芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行程序或指令,实现如第一方面中的分词方法的步骤。
在本申请实施例中,在接收到输入第一字符的第一输入时,首先判断第一字符是否包含目标字符,若包含目标字符,则对第一分词模型中的语义特征维度进行筛选,以得到第二分词模型,其中,第二分词模型中所包含的第一语义特征维度的数量小于第一分词模型中的语义特征维度的数量,因此,在后期确定的第三分词模型对第一字符进行分词时,可以减少计算语义特征维度时所需要处理的数据量,通过在第一语义特征维度的基础上增加目标字符对应的第二语义特征维度,进而得到第三分词模型,并使用第三分词模型对第一字符进行分词。由于第三分词模型中语义特征维度包含了目标字符对应的语义特征维度,因此,在对第一字符进行分词时,可以充分考虑到目标字符对分词结果的影响,故得到的分词结果与实际词的偏差减小,提高了分词的准确性。
附图说明
图1为实现本申请实施例的分词方法的流程示意图之一;
图2为实现本申请实施例的基于第三分词模型对第一字符分词的流程示意图;
图3为实现本申请实施例的分词方法的流程示意图之二;
图4为实现本申请实施例中对第一分词模型的语义特征维度进行筛选,得到包括第一语义特征维度的第二分词模型在实际应用过程中的流程示意图;
图5为实现本申请实施例的分词方法的流程示意图之三;
图6为实现本申请实施例的分词方法的流程示意图之四;
图7为实现本申请实施例的分词方法的流程示意图之五;
图8为实现本申请实施例的数据处理示意图;
图9为实现本申请实施例的分词装置的示意框图;
图10为实现本申请实施例的一种电子设备的硬件结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的分词方法、装置、电子设备和可读存储介质进行详细地说明。
在本申请的一个实施例中,如图1所示,提出了一种分词方法,该方法包括:
步骤102,接收输入第一字符的第一输入。
在本申请的一个实施例中,输入第一字符的第一输入可以是对拍摄得到的图像进行文字识别得到第一字符,其中,文字识别的方式可以是基于OCR文字识别原理进行识别。
在本申请的一个实施例中,输入第一字符的第一输入可以是直接输入第一字符,如通过键盘、触控屏等输入设备进行输入第一字符。
步骤104,在第一字符包括目标字符的情况下,对第一分词模型的语义特征维度进行筛选,得到包括第一语义特征维度的第二分词模型。
在步骤104中,第一分词模型可以是基于BERT模型的分词模型,其中, BERT(Bidirectional Encoder Representations from Transformers,一种新型的语言模型),通常情况下,BERT模型中表征每一字符采用768个维度,就如上述所记载的,若直接在768个维度的基础上增加目标字符的第二语义特征维度,则对第一字符进行分词时,所需要处理的数据量过大,基于此,本申请实施例中对第一分词模型中的维度进行筛选,以丢弃一些无用的冗余的信息,进而得到关注字符与字符之间连续性的维度信息,最终得到第二分词模型。
步骤106,基于第一语义特征维度增加目标字符对应的第二语义特征维度,获得第三分词模型。
在步骤106中,通过在第一语义特征维度的基础上增加目标字符对应的第二语义特征维度,以获取第三分词模型,其中,增加目标字符对应的第二语义特征维度的形式可以是在第一语义特征维度的末尾直接增加目标字符对应的第二语义特征维度。
步骤108,基于第三分词模型对第一字符分词。
在本申请实施例中,由于第三分词模型中语义特征维度包含了目标字符对应的语义特征维度,因此,在对第一字符进行分词时,可以充分考虑到目标字符对分词结果的影响,故得到的分词结果与实际词的偏差较小,提高了分词的准确性。
具体地,如图2所示,基于第三分词模型对第一字符分词,具体包括:
步骤202,基于第三分词模型对第一字符进行标注;
步骤204,根据标注结果对第一字符进行分词。
在其中一个实施例中,使用CRF判别模型对第一字符进行标注,以得到第一字符与至少一个标签对应的概率值,并根据至少一个标签对应的概率值确定第一字符的标签,即标注结果。
在该实施例中,CRF,即Conditional Random Fields,条件随机场,是在给定一组输入序列的条件下,另一组输出序列的条件概率分布模型,因此,在输入第一字符后,可以得到第一字符的条件概率分布模型,也即第一字符与至少一个标签对应的概率值,以便根据至少一个标签对应的概率值确定第一字符的标签,以便根据第一字符的标签,确定相邻两个字符之间是否连续。
在其中一个实施例中,标签即(BMES,Begin\Middle\End\Single,开头、中间、结尾、单字)。
在上述实施例中,可以理解的是,将125维的语义特征和3维的字符特征,即目标字符对应的语义特征维度融合在一起,变成128维,通过CRF判别模型确定每一字符属于BMES中每一标签的概率,最终根据每一字符的标签确定相邻两个字符之间是否连续。
具体地,举例来说,“在B-102房间”的标签为S BMMME BE,则分词结果为在/B-102/房间。
在其中一个实施例中,目标字符包括以下一项或多项:数字、字母、符号,目标字符包括数字、字母、符号中的至少一项的情况下,每一字符对应的第二语义特征维度可以以三个二进制的数值来表示,以B-102为例,其第二语义特征维度包括[0,1,0]、[0,0,1]、[1,0,0]、[1,0,0]、[1,0,0],其中,字符“B”的第二语义特征维度表示为[0,1,0]。
在其中一个实施例中,如图3所示,对第一分词模型的语义特征维度进行筛选,得到包括第一语义特征维度的第二分词模型,包括:
步骤302,确定第一分词模型中第N个语义特征维度的特征值与第M个语义特征维度的特征值的第一差值,其中N不等于M;步骤304,在第一差值的绝对值大于或等于第一预设值的情况下,删除第N个语义特征维度;步骤 306,基于删除后的语义特征维度筛选第一语义特征维度,获得包括第一语义特征维度的第二分词模型。
图4示出了在N取值为1、第一预设值取值为a的情况下,图3所限定的对第一分词模型的语义特征维度进行筛选,得到包括第一语义特征维度的第二分词模型在实际应用过程中的流程示意图。
举例来说,一个词W,可以由多维语义特征表示:
W=W1,W2,W3,W4,W5,……Wn。
如图4所示,其具体流程包括:
步骤402,以第一个语义特征维度特征为基础,计算∣W1-Wi∣;
步骤404,判断∣W1-Wi∣<a,在判断结果为是,执行步骤406,在判断结果为否,执行步骤408;
步骤406,判断特征是否小于125维,在判断结果为是,执行步骤410,在判断结果为否,执行步骤408;
步骤408,舍弃Wi;
步骤410,输出125维特征。
在该实施例中,通过确定第一分词模型中第N个语义特征维度的特征值与第M个语义特征维度的特征值的第一差值,以便根据第一差值与第一预设值之间的大小关系确定不同维度之间差异较大的语义特征维度,并对其进行删除处理,减少其对运算量所产生的影响。
在其中一个实施例中,第一预设值可以根据实际需要进行设定,在此不再详细说明。
本申请实施例中,通过如图3所示的筛选方法进行语义特征维度的筛选,确保了同一字符对应的不同维度特征之间的差异性,能够更好地判断字符与字符之间的连续性,确保了分词的合理性。
在其中一个实施例中,M取值为1,即第一个语义特征维度,同样以上面的输出结果为例,第一个语义特征维度的取值为0.1,则第一差值的绝对值为 [0.1,0.2,,0.3,0.4,0.5,0.6,0.7,0.8],并将该绝对值与第一预设值进行比较,对于该绝对值大于第一预设值的情况下,删除该绝对值所对应的语义特征维度,以实现对第一分词模型中的语义特征位置进行筛选。
在其中一个实施例中,在步骤302之前,还包括:采用最大池化的方式对第一分词模型的语义特征维度进行筛选,以减少步骤302计算的数据量。
举例来说,使用1×3的最大池化方式从768维特征中筛选中最能表示字符含义的特征。假设,BERT的前9个维度的值为,[0.1,0.2,0.3,0.4,0.5, 0.6,0.7,0.8,0.9],则经过最大池化方式后,输出的结果为[0.3,0.6,0.9]。
此时,第一个语义特征维度的取值为0.3,则第一差值的绝对值为0.2和 0.8,并将该绝对值与第一预设值进行比较,对于该绝对值大于第一预设值的情况下,删除该绝对值所对应的语义特征维度,以实现对第一分词模型中的语义特征位置进行筛选。
在上述任一实施例中,在对第一分词模型中的语义特征维度进行筛选之后,还包括:第一分词模型中,判断筛选之后语义特征维度是否为第一语义特征维度,在小于的情况下,使用零值进行补位,直至第一分词模型中,判断筛选之后语义特征维度为第一语义特征维度,以获得包括第一语义特征维度第一维度的第二分词模型。
在上述任一实施例中,如图5所示,对第一分词模型的语义特征维度进行筛选,得到包括第一语义特征维度的第二分词模型,包括:
步骤502,确定第一分词模型的语义特征维度的平均特征值。
步骤504,确定平均特征值与第一分词模型中每个语义特征维度的特征值的第二差值。
举例来说,假设BERT的输出结果为[0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9],此时,第一分词模型的语义特征维度的平均特征值Wa=[0.5],则它们的差的绝对值为[0.4,0.3,0.2,0.1,0,0.1,0.2,0.3,0.4]。
步骤506,基于第二差值筛选得到第一语义特征维度,获得包括第一语义特征维度的第二分词模型。
在第一分词模型可以是基于BERT模型的分词模型的情况下,按照由小至大或由大至小的方式对第二差值的绝对值进行排序,以得到预设数量、较小的第二差值的绝对值对应的语义特征维度。
在该实施例中,预设数量选取为125,举例来说,假设差值为[0.4,0.3, 0.2,0.1,0,0.1,0.2,0.3,0.4],筛选前3个最小的,那么筛选出来的差值为[0.1,0,0.1],对应BERT的输出分别为第4、5、6维,则被筛选出来的特征值为[0.4,0.5,0.6]。
在该实施例中,通过上述方式来进行分词,可以更好的对本来应该连续的词,进行合并,提高了分词的准确性。
在上述任一实施例中,如图6所示,对第一分词模型的语义特征维度进行筛选,得到包括第一语义特征维度的第二分词模型,包括:
步骤602,获取目标字符对应的第二语义特征维度的平均特征值。
步骤604,确定平均特征值与第一分词模型中每个语义特征维度的特征值的第三差值。
举例来说,假设当前输入是“1”,那它的三个维度的表示为[1,0,0],此时,目标字符对应的第二语义特征维度的平均特征值Wa=[0.33]。假设BERT 的输出结果为[0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9],则第三差值的绝对值为[0.23,0.13,0.03,0.07,0.17,0.27,0.37,0.47,0.57]。
步骤606,基于第三差值筛选得到第一语义特征维度,获得包括第一维度的第二分词模型。
在步骤606中,按照由小至大或由大至小的方式对第三差值的绝对值进行排序,以得到预设数量、较小的第三差值的绝对值对应的语义特征维度。
在其中一个实施例中,预设数量的取值可以是125。
如上文所示,在第三差值的绝对值为[0.23,0.13,0.03,0.07,0.17,0.27, 0.37,0.47,0.57]的情况下,筛选前3个最小的,那么筛选出来的差值为[0.13, 0.03,0.07],对应BERT的输出分别为第2、3、4维,则被筛选出来的特征值为[0.2,0.3,0.4]。
在该实施例中,通过上述方式来进行分词,可以更好地将数字、字母连接在一起,提高了分词的准确性。
在其中一个实施例中,目标字符对应的第二语义特征维度的平均特征值可采用均值池化的方式来计算。
在上述任一实施例中,如图7所示,还包括:
步骤702,在第一字符中的字符不包含目标字符的情况下,采用默认BERT 算法对第一字符进行处理,以得到分词结果。
在该实施例中,具体限定在第一字符中不包含目标字符的情况下的分词方式,其与第一字符中包含目标字符的情况下的控制逻辑的区别在于,缺少了3 维的字符特征融合。
本申请实施例提出的分词方法可以根据第一字符是否包含目标字符来执行不同的控制逻辑,因此,可以满足不同输入下的分词需求,提高了分词的准确性。
在上述任一实施例中,在第一字符中的字符包括符号时,获取符号的属性信息,以便根据符号的属性信息对第一字符进行分词,以得到分词结果。
在该实施例中,通过获取符号的属性信息,以便在进行分词时,可以参考符号的属性信息确定是否进行分词,以便确保分词的效果。
举例来说,符号的属性信息可以是中文符号或英文符号。
具体地,在确定字符在符号时,判断字符是中文符号或英文符号,进行进一步判断是否需要分词。
举例来说,在包含符号,且需要分开的情况,如第一输入为:他们成绩分别为199,299。这时候,预设目标字符里面没有中文的逗号,“,”的三个特征维度表示为[0,0,0],故199,299更可能被模型切分为199/,/299。
举例来说,在包含符号,且需要合并的情况,如第一输入:为他的成绩为 199,299。这时候,符号维度里面有英文的逗号,“,”的三个特征维度表示为 [0,0,1],故199,299更可能被模型被切分为199,299。
如图8所示:输入“在B-102房间”时,BERT的输出一般为8x 768维的特征表示,其中8为句子的长度,768为每个字的特征表示。
在本申请实施例中,通过Dimension Filtering筛选成8x125维的特征表示以及8×3的字符特征,最终融合得到8x128维进行输出。
举例来说,在相同输入的情况下,本申请的实施例输出的分词结果为:
{言之无物}{}{云里雾里}{的}{讲}{一堆}{没用}{的} {https://****.com/show?fid=1034:*****&markid=9};
而在其它分词软件中,分词结果分别是:
{言之无物}{}{云里雾里}{的}{讲}{一堆}{没用}{的}{https}{:} {/}{/}{****}{.}{com}{.}{/}{show}{?}{fid}{=}{1034}{:}{*****} {&}{markid}{=}{9}。
在该实施例中,能够帮助用户以较快速度进行分词,且具备繁简转换功能、分词粒度选择功能、多种分词工具对比功能;同时通过趣味交互,提高用户积极性;可以更好地切分出网址、淘口令等包含有数字、字母、特殊符号的词;增加数字、字母、特殊符号等词的特征表示,强化字符的语义特征,提升分词模型的鲁棒性。
需要说明的是,本申请实施例提供的分词方法,执行主体可以为分词装置,或者该分词装置中的用于执行加载分词的方法的控制模块。本申请实施例中以分词装置执行加载分词的方法为例,说明本申请实施例提供的分词方法的步骤。
在本申请实施例中,提出了一种分词装置900,如图9所示,包括:接收单元902,用于接收输入第一字符的第一输入;筛选单元904,用于在第一字符包括目标字符的情况下,对第一分词模型的语义特征维度进行筛选,得到包括第一语义特征维度的第二分词模型;确定单元906,用于基于第一语义特征维度增加目标字符对应的第二语义特征维度,获得第三分词模型;分词单元 908,用于基于第三分词模型对第一字符分词。
在本申请的一个实施例中,输入第一字符的第一输入可以是对拍摄得到的图像进行文字识别其中,文字识别的方式可以是基于OCR文字识别原理进行识别。
在本申请的一个实施例中,输入第一字符的第一输入可以是直接输入,如通过键盘、触控屏等输入设备进行输入。
在本申请的一个实施例中,输入第一字符的第一输入还可以是通过语音识别系统所执行的输入。
在本申请实施例中,由于第三分词模型中语义特征维度包含了目标字符对应的语义特征维度,因此,在对第一字符进行分词时,可以充分考虑到目标字符对分词结果的影响,故得到的分词结果与实际词的偏差减小,提高了分词的准确性。
在其中一个实施例中,目标字符包括以下一项或多项:数字、字母、符号,目标字符包括数字、字母、符号中的至少一项的情况下,每一字符对应的第二语义特征维度可以以三个二进制的数值来表示,以B-102为例,其第二语义特征维度包括[0,1,0]、[0,0,1]、[1,0,0]、[1,0,0]、[1,0,0],其中,字符“B”的第二语义特征维度表示为[0,1,0]。
在其中一个实施例中,分词单元908具体用于,基于第三分词模型对第一字符进行标注;根据标注结果对第一字符进行分词。
在其中一个实施例中,使用CRF判别模型对第一字符进行标注,以得到第一字符与至少一个标签对应的概率值,并根据至少一个标签对应的概率值确定第一字符的标签,即标注结果。
在该实施例中,CRF,即Conditional Random Fields,条件随机场,是在给定一组输入序列的条件下,另一组输出序列的条件概率分布模型,因此,在输入第一字符后,可以得到第一字符的条件概率分布模型,也即第一字符与至少一个标签对应的概率值,以便根据至少一个标签对应的概率值确定第一字符的标签,以便根据每一字符的标签,确定相邻两个字符之间是否连续。
在其中一个实施例中,标签即(BMES,Begin\Middle\End\Single,开头、中间、结尾、单字)。
在上述实施例中,可以理解的是,将125维的语义特征和3维的字符特征,即目标字符对应的语义特征维度融合在一起,变成128维,通过CRF判别模型确定每一字符属于BMES中每一标签的概率,最终根据每一字符的标签确定相邻两个字符之间是否连续。
具体地,举例来说,“在B-102房间”的标签为S BMMME BE,则分词结果为在/B-102/房间。
在其中一个实施例中,筛选单元904具体用于,确定第一分词模型中第N 个语义特征维度的特征值与第M个语义特征维度的特征值的第一差值,其中N 不等于M;在第一差值的绝对值大于或等于第一预设值的情况下,删除第N 个语义特征维度;基于删除后的语义特征维度筛选第一语义特征维度,获得包括第一语义特征维度的第二分词模型。
本申请实施例中,通过确定第一分词模型中第N个语义特征维度的特征值与第M个语义特征维度的特征值的第一差值,以便根据第一差值与第一预设值之间的大小关系确定不同维度之间差异较大的语义特征维度,并对其进行删除处理,减少其对运算量所产生的影响。
在其中一个实施例中,第一预设值根据实际需要进行设定,在此不再详细说明。
在该实施例中,通过对语义特征维度的筛选,确保了同一字符对应的不同维度特征之间的差异性,能够更好地判断字符与字符之间的连续性,确保了分词的合理性。
在其中一个实施例中,M取值为1,即第一个语义特征维度,同样以上面的输出结果为例,第一个语义特征维度的取值为0.1,则它们的第一差值的绝对值为[0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8],并将该绝对值与第一预设值进行比较,对于该绝对值大于第一预设值的情况下,删除该绝对值所对应的语义特征维度,以实现对第一分词模型中的语义特征位置进行筛选。
在上述任一实施例中,在对第一分词模型中的语义特征维度进行筛选之后,筛选单元904还用于:第一分词模型中,判断筛选之后语义特征维度是否为第一语义特征维度,在小于的情况下,使用零值进行补位,直至第一分词模型中,判断筛选之后语义特征维度为第一语义特征维度,以获得包括第一语义特征维度第一维度的第二分词模型。
在其中一个实施例中,筛选单元904具体用于,确定第一分词模型的语义特征维度的平均特征值;确定平均特征值与第一分词模型中每个语义特征维度的特征值的第二差值;基于第二差值筛选得到第一语义特征维度,获得包括第一语义特征维度的第二分词模型。
在其中一个实施例中,假设BERT的输出结果为[0.1,0.2,0.3,0.4,0.5, 0.6,0.7,0.8,0.9],此时,第一分词模型的语义特征维度的平均特征值=[0.5],则它们的差的绝对值为[0.4,0.3,0.2,0.1,0,0.1,0.2,0.3,0.4]。
在该实施例中,预设数量选取为125,举例来说,假设差值为[0.4,0.3, 0.2,0.1,0,0.1,0.2,0.3,0.4],筛选前3个最小的,那么筛选出来的差值为[0.1,0,0.1],对应BERT的输出分别为第4个、第5个、第6个语义特征维度,则被筛选出来的特征值为[0.4,0.5,0.6]。
在该实施例中,通过上述方式来进行分词,可以更好的对本来应该连续的词,进行合并,提高了分词的准确性。
在其中一个实施例中,可以均值池化的方式确定第一分词模型的语义特征维度的平均特征值。
在其中一个实施例中,筛选单元904具体用于,获取目标字符对应的第二语义特征维度的平均特征值;确定平均特征值与第一分词模型中每个语义特征维度的特征值的第三差值;基于第三差值筛选得到第一语义特征维度,获得包括第一维度的第二分词模型。
在其中一个实施例中,按照由小至大或由大至小的方式对第三差值的绝对值进行排序,以得到预设数量、较小的第三差值的绝对值对应的语义特征维度。
举例来说,假设当前输入是“1”,那它的三个维度的表示为[1,0,0],此时,目标字符对应的第二语义特征维度的平均特征值Wa=[0.33]。
举例来说,假设BERT的输出结果为[0.1,0.2,0.3,0.4,0.5,0.6,0.7, 0.8,0.9],目标字符对应的第二语义特征维度的平均特征值=[0.33],则第三差值的绝对值为[0.23,0.13,0.03,0.07,0.17,0.27,0.37,0.47,0.57]。
在其中一个实施例中,预设数量的取值可以是125。
如上文所示,在第三差值的绝对值为[0.23,0.13,0.03,0.07,0.17,0.27, 0.37,0.47,0.57]的情况下,筛选前3个最小的,那么筛选出来的差值为[0.13, 0.03,0.07],对应BERT的输出分别为第2、3、4维,则被筛选出来的特征值为[0.2,0.3,0.4]。
在该实施例中,通过上述方式来进行分词,可以更好地将数字、字母连接在一起,比如网址、淘口令等,提高了分词的准确性。
在其中一个实施例中,目标字符对应的第二语义特征维度的平均特征值可采用均值池化的方式来计算。
在其中一个实施例中,筛选单元还用于:在第一字符中的字符不包含目标字符的情况下,采用默认BERT算法对第一字符进行处理,以得到分词结果。
在该实施例中,具体限定在第一字符中不包含目标字符的情况下的分词方式,其与第一字符中包含目标字符的情况下的控制逻辑的区别在于,缺少了3 维的字符特征融合。
本申请实施例提出的分词方法可以根据第一字符是否包含目标字符来执行不同的控制逻辑,因此,可以满足不同输入下的分词需求,提高了分词的准确性。
在其中一个实施例中,在第一字符中的字符包括符号时,获取符号的属性信息,以便根据符号的属性信息对第一字符进行分词,以得到分词结果。
在该实施例中,通过获取符号的属性信息,以便在进行分词时,可以参考符号的属性信息确定是否进行分词,以便确保分词的效果。
举例来说,符号的属性信息可以是中文符号或英文符号。
具体地,在确定字符在符号时,判断字符是中文符号或英文符号,进行进一步判断是否需要分词。
举例来说,在包含符号,且需要分开的情况,如第一输入为:他们成绩分别为199,299。这时候,预设目标字符里面没有中文的逗号,“,”的三个特征维度表示为[0,0,0],故199,299更可能被模型切分为199/,/299。
举例来说,在包含符号,且需要合并的情况,如第一输入:为他的成绩为 199,299。这时候,符号维度里面有英文的逗号,“,”的三个特征维度表示为 [0,0,1],故199,299更可能被模型被切分为199,299。
本申请实施例中的分词装置900可以是装置,也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备,也可以为非移动电子设备。示例性的,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer, UMPC)、上网本或者个人数字助理(personaldigital assistant,PDA)等,非移动电子设备可以为服务器、网络附属存储器(NetworkAttached Storage,NAS)、个人计算机(personal computer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施例不作具体限定。
本申请实施例中的分词装置900可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统,可以为ios操作系统,还可以为其他可能的操作系统,本申请实施例不作具体限定。
本申请实施例提供的分词装置900能够实现图1至图8的方法实施例中分词装置900实现的各个过程,为避免重复,这里不再赘述。
可选的,本申请实施例还提供一种电子设备,包括处理器1010,存储器 1009,存储在存储器1009上并可在处理器1010上运行的程序或指令,该程序或指令被处理器1010执行时实现上述分词方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要注意的是,本申请实施例中的电子设备包括上述的移动电子设备和非移动电子设备。
图10为实现本申请实施例的一种电子设备的硬件结构示意图。
如图10所示,该电子设备1000包括但不限于:射频单元1001、网络模块 1002、音频输出单元1003、第一输入单元1004、传感器1005、显示单元1006、用户输入单元1007、接口单元1008、存储器1009、以及处理器1010等部件。
本领域技术人员可以理解,电子设备1000还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器1010逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图10中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
在其中一个实施例中,存储器1009存储有应用程序和操作系统,用户输入单元1007用于接收输入第一字符的第一输入,其中,第一输入可以通过触控面板10071输入,也可以通过其它输入设备10072输入,输入单元1004可以包括图形处理器10041和麦克风10042,显示单元1006包括显示面板10061。
在其中一个实施例中,处理器1010用于:在第一字符包括目标字符的情况下,对第一分词模型的语义特征维度进行筛选,得到包括第一语义特征维度的第二分词模型;基于第一语义特征维度增加目标字符对应的第二语义特征维度,获得第三分词模型;基于第三分词模型对第一字符分词。
在其中一个实施例中,处理器1010还用于:确定第一分词模型中第N个语义特征维度的特征值与第M个语义特征维度的特征值的第一差值,其中N 不等于M;在第一差值的绝对值大于或等于第一预设值的情况下,删除第N 个语义特征维度;基于删除后的语义特征维度筛选第一语义特征维度,获得包括第一语义特征维度的第二分词模型。
在其中一个实施例中,处理器1010还用于:确定第一分词模型的语义特征维度的平均特征值;确定平均特征值与第一分词模型中每个语义特征维度的特征值的第二差值;基于第二差值筛选得到第一语义特征维度,获得包括第一语义特征维度的第二分词模型。
在其中一个实施例中,处理器1010还用于:获取目标字符对应的第二语义特征维度的平均特征值;确定平均特征值与第一分词模型中每个语义特征维度的特征值的第三差值;基于第三差值筛选得到第一语义特征维度,获得包括第一维度的第二分词模型。
在其中一个实施例中,处理器1010还用于:基于第三分词模型对第一字符进行标注;根据标注结果对第一字符进行分词。
本申请实施例还提供一种可读存储介质,可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述分词方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,处理器为上述实施例中的电子设备中的处理器。可读存储介质,包括计算机可读存储介质,如计算机只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、磁碟或者光盘等。
本申请实施例另提供了一种芯片,芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行程序或指令,实现上述分词方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

Claims (12)

1.一种分词方法,其特征在于,包括:
接收输入第一字符的第一输入;
在所述第一字符包括目标字符的情况下,对第一分词模型的语义特征维度进行筛选,得到包括第一语义特征维度的第二分词模型;
基于所述第一语义特征维度增加所述目标字符对应的第二语义特征维度,获得第三分词模型;
基于所述第三分词模型对所述第一字符分词。
2.根据权利要求1所述的分词方法,其特征在于,所述对第一分词模型的语义特征维度进行筛选,得到包括第一语义特征维度的第二分词模型,包括:
确定所述第一分词模型中第N个语义特征维度的特征值与第M个语义特征维度的特征值的第一差值,其中N不等于M;
在所述第一差值的绝对值大于或等于第一预设值的情况下,删除所述第N个语义特征维度;
基于删除后的语义特征维度筛选第一语义特征维度,获得包括第一语义特征维度的第二分词模型。
3.根据权利要求1所述的分词方法,其特征在于,所述对第一分词模型的语义特征维度进行筛选,得到包括第一语义特征维度的第二分词模型,包括:
确定所述第一分词模型的语义特征维度的平均特征值;
确定所述平均特征值与所述第一分词模型中每个语义特征维度的特征值的第二差值;
基于所述第二差值筛选得到第一语义特征维度,获得包括第一语义特征维度的第二分词模型。
4.根据权利要求1所述的分词方法,其特征在于,所述对第一分词模型的语义特征维度进行筛选,得到包括第一语义特征维度的第二分词模型,包括:获取所述目标字符对应的第二语义特征维度的平均特征值;
确定所述平均特征值与所述第一分词模型中每个语义特征维度的特征值的第三差值;
基于所述第三差值筛选得到第一语义特征维度,获得包括第一维度的第二分词模型。
5.根据权利要求1至4中任一项所述的分词方法,其特征在于,所述基于所述第三分词模型对所述第一字符分词,具体包括:
基于所述第三分词模型对所述第一字符进行标注;
根据标注结果对所述第一字符进行分词。
6.一种分词装置,其特征在于,包括:
接收单元,用于接收输入第一字符的第一输入;
筛选单元,用于在所述第一字符包括目标字符的情况下,对第一分词模型的语义特征维度进行筛选,得到包括第一语义特征维度的第二分词模型;
确定单元,用于基于所述第一语义特征维度增加所述目标字符对应的第二语义特征维度,获得第三分词模型;
分词单元,用于基于所述第三分词模型对所述第一字符分词。
7.根据权利要求6所述的分词装置,其特征在于,所述筛选单元具体用于,
确定所述第一分词模型中第N个语义特征维度的特征值与第M个语义特征维度的特征值的第一差值,其中N不等于M;
在所述第一差值的绝对值大于或等于第一预设值的情况下,删除所述第N个语义特征维度;
基于删除后的语义特征维度筛选第一语义特征维度,
获得包括第一语义特征维度的第二分词模型。
8.根据权利要求6所述的分词装置,其特征在于,所述筛选单元具体用于,
确定所述第一分词模型的语义特征维度的平均特征值;
确定所述平均特征值与所述第一分词模型中每个语义特征维度的特征值的第二差值;
基于所述第二差值筛选得到第一语义特征维度,获得包括第一语义特征维度的第二分词模型。
9.根据权利要求6所述的分词装置,其特征在于,所述筛选单元具体用于,
获取所述目标字符对应的第二语义特征维度的平均特征值;
确定所述平均特征值与所述第一分词模型中每个语义特征维度的特征值的第三差值;
基于所述第三差值筛选得到第一语义特征维度,获得包括第一维度的第二分词模型。
10.根据权利要求6至9中任一项所述的分词装置,其特征在于,所述分词单元具体用于,
基于所述第三分词模型对所述第一字符进行标注;
根据标注结果对所述第一字符进行分词。
11.一种电子设备,其特征在于,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1至5中任一项所述的分词方法的步骤。
12.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1至5中任一项所述的分词方法的步骤。
CN202110217357.5A 2021-02-26 2021-02-26 分词方法、装置、电子设备和可读存储介质 Active CN112949298B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110217357.5A CN112949298B (zh) 2021-02-26 2021-02-26 分词方法、装置、电子设备和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110217357.5A CN112949298B (zh) 2021-02-26 2021-02-26 分词方法、装置、电子设备和可读存储介质

Publications (2)

Publication Number Publication Date
CN112949298A CN112949298A (zh) 2021-06-11
CN112949298B true CN112949298B (zh) 2022-10-04

Family

ID=76246517

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110217357.5A Active CN112949298B (zh) 2021-02-26 2021-02-26 分词方法、装置、电子设备和可读存储介质

Country Status (1)

Country Link
CN (1) CN112949298B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701086A (zh) * 2016-01-13 2016-06-22 夏峰 一种滑动窗口文献检测方法及系统
JP2018206261A (ja) * 2017-06-08 2018-12-27 日本電信電話株式会社 単語分割推定モデル学習装置、単語分割装置、方法、及びプログラム
CN110263325A (zh) * 2019-05-17 2019-09-20 交通银行股份有限公司太平洋信用卡中心 中文分词系统
CN110991182A (zh) * 2019-12-03 2020-04-10 东软集团股份有限公司 用于专业领域的分词方法、装置、存储介质及电子设备
CN111090996A (zh) * 2019-12-02 2020-05-01 东软集团股份有限公司 一种分词的方法、装置及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701086A (zh) * 2016-01-13 2016-06-22 夏峰 一种滑动窗口文献检测方法及系统
JP2018206261A (ja) * 2017-06-08 2018-12-27 日本電信電話株式会社 単語分割推定モデル学習装置、単語分割装置、方法、及びプログラム
CN110263325A (zh) * 2019-05-17 2019-09-20 交通银行股份有限公司太平洋信用卡中心 中文分词系统
CN111090996A (zh) * 2019-12-02 2020-05-01 东软集团股份有限公司 一种分词的方法、装置及存储介质
CN110991182A (zh) * 2019-12-03 2020-04-10 东软集团股份有限公司 用于专业领域的分词方法、装置、存储介质及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于BiLSTM_CRF模型的藏文分词方法;王莉莉 等;《重庆邮电大学学报(自然科学版)》;20200831;第32卷(第4期);全文 *

Also Published As

Publication number Publication date
CN112949298A (zh) 2021-06-11

Similar Documents

Publication Publication Date Title
CN107767870B (zh) 标点符号的添加方法、装置和计算机设备
CN107204184B (zh) 语音识别方法及系统
CN107992596B (zh) 一种文本聚类方法、装置、服务器和存储介质
CN106897428B (zh) 文本分类特征提取方法、文本分类方法及装置
CN105814519B (zh) 将图像或标签输入到电子设备的系统和方法
WO2019200806A1 (zh) 文本分类模型的生成装置、方法及计算机可读存储介质
US8315482B2 (en) Integrated platform for user input of digital ink
CN108537176B (zh) 目标弹幕的识别方法、装置、终端及存储介质
US20160292148A1 (en) System and method for inputting images or labels into electronic devices
CN111985229A (zh) 一种序列标注方法、装置及计算机设备
US20210209289A1 (en) Method and apparatus for generating customized content based on user intent
CN111783468A (zh) 文本处理方法、装置、设备和介质
CN111241813B (zh) 语料扩展方法、装置、设备及介质
CN111488732B (zh) 一种变形关键词检测方法、系统及相关设备
CN113205047B (zh) 药名识别方法、装置、计算机设备和存储介质
CN111984589A (zh) 文档处理方法、文档处理装置和电子设备
CN112631437A (zh) 信息推荐方法、装置及电子设备
CN110543637A (zh) 一种中文分词方法及装置
CN110874534A (zh) 数据处理方法和数据处理装置
CN112989235A (zh) 基于知识库的内链构建方法、装置、设备和存储介质
CN111414471A (zh) 用于输出信息的方法和装置
CN104281560B (zh) 一种记忆文本信息的显示方法、装置及终端
CN110909768A (zh) 一种标注数据获取方法及装置
CN112558784A (zh) 输入文字的方法、装置和电子设备
CN112949298B (zh) 分词方法、装置、电子设备和可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant