CN110795938A - 文本序列分词方法、装置及存储介质 - Google Patents

文本序列分词方法、装置及存储介质 Download PDF

Info

Publication number
CN110795938A
CN110795938A CN201911097121.1A CN201911097121A CN110795938A CN 110795938 A CN110795938 A CN 110795938A CN 201911097121 A CN201911097121 A CN 201911097121A CN 110795938 A CN110795938 A CN 110795938A
Authority
CN
China
Prior art keywords
word segmentation
text sequence
result
probability
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911097121.1A
Other languages
English (en)
Other versions
CN110795938B (zh
Inventor
陈宇鹏
史亮
王铄
王斌
孟二利
过群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Intelligent Technology Co Ltd
Original Assignee
Beijing Xiaomi Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Intelligent Technology Co Ltd filed Critical Beijing Xiaomi Intelligent Technology Co Ltd
Priority to CN201911097121.1A priority Critical patent/CN110795938B/zh
Publication of CN110795938A publication Critical patent/CN110795938A/zh
Priority to US16/861,295 priority patent/US11157686B2/en
Priority to EP20177416.3A priority patent/EP3819808A1/en
Application granted granted Critical
Publication of CN110795938B publication Critical patent/CN110795938B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Optimization (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Operations Research (AREA)
  • Machine Translation (AREA)

Abstract

本公开揭示了一种文本序列分词方法,属于自然语言处理技术领域。所述方法包括:获取文本序列的n个分词子结果,所述n个分词子结果是通过n个分词模型分别对所述文本序列进行分词处理获得的;通过结果合并模型中的概率确定模型分支对所述n个分词子结果进行处理,获取所述各个分词位置的分词概率;通过所述结果合并中的激活函数对所述各个分词位置处的分词概率进行处理,获取所述文本序列的分词结果。本公开以文本序列中的每个分词位置为单位,对多个分词模型的分词结果进行合并,从而提高了对新出现的文本序列进行分词的准确性。

Description

文本序列分词方法、装置及存储介质
技术领域
本公开涉及自然语言处理技术领域,特别涉及一种文本序列分词方法、装置及存储介质。
背景技术
在针对中文的自然语言处理(Natural Language Process,NLP)任务中,通常以词为单元对文本进行处理,这就使得中文分词成为了中文自然语言处理中的基础任务。
中文分词任务通常由分词模型对文本序列处理完成。其中,分词模型由标注好的语料训练获得,训练语料的数据量的大小直接影响模型训练的准确性。在相关技术中,为了扩展训练语料,通常采用数据增强的方式对人工标注的训练语料进行扩展,以获得新的训练语料。
然而,通过数据增强的方式获得的训练语料只是对已有的训练预料的简单修改,对分词模型的训练效果提升有限,影响分词任务的分词准确性。
发明内容
本公开提供一种文本序列分词方法、装置及存储介质。所述技术方案如下:
根据本公开实施例的第一方面,提供了一种文本序列分词方法,所述方法包括:
接收输入的文本序列,通过n个分词模型分别对所述文本序列进行分词处理;
获取文本序列的n个分词子结果;所述分词子结果指示所述文本序列中的各个分词位置的分词状态;所述分词位置是所述文本序列中每两个相邻字符之间的位置;所述分词状态指示在对应的分词位置是否分词;n为大于或者等于2的整数;
通过结果合并模型中的概率确定模型分支对所述n个分词子结果进行处理,获取所述各个分词位置的分词概率;
通过所述结果合并中的激活函数对所述各个分词位置处的分词概率进行处理,获取所述文本序列的分词结果。
在一种可能的实现方式中,所述分词子结果包括所述文本序列中的各个分词位置各自的状态值,所述状态值用于指示对应分词位置的分词状态;
所述通过结果合并模型中的概率确定模型分支对所述n个分词子结果进行处理,获取所述各个分词位置的分词概率,包括:
通过所述概率确定模型分支,根据所述各个分词位置分别对应在所述n个分词子结果中的状态值,获取所述各个分词位置的分词概率。
在一种可能的实现方式中,所述概率确定模型分支中包含所述n个分词模型各自的权重;所述通过所述概率确定模型分支,根据所述各个分词位置分别对应在所述n个分词子结果中的状态值,获取所述各个分词位置的分词概率,包括:
通过所述概率确定模型分支,根据所述各个分词位置分别对应在所述n个分词子结果中的状态值,以及所述n个分词模型各自的权重,获取所述各个分词位置的分词加权值;
通过所述概率确定模型分支,对所述各个分词位置的分词加权值进行归一化处理,获得所述各个分词位置的分词概率;
其中,所述结果合并模型是根据文本序列样本的n个分词子结果样本,以及所述文本序列样本的标注分词结果训练获得的机器学习模型,所述n个分词子结果样本是通过所述n个分词模型分别对所述文本序列样本进行分词处理获得的;所述n个分词模型各自的权重是所述结果合并模型的模型参数。
在一种可能的实现方式中,所述通过所述概率确定模型分支,根据所述各个分词位置分别对应在所述n个分词子结果中的状态值,以及所述n个分词模型各自的权重,获取所述各个分词位置的分词加权值,包括:
将目标分词位置分别对应在所述n个分词子结果中的状态值,分别与各自对应的分词模型的权重相乘后求和,获得所述目标分词位置的分词加权值;所述目标分词位置是所述各个分词位置中的任意一个分词位置。
在一种可能的实现方式中,当所述状态值为0时,表示在对应的分词位置未分词,当所述状态值为1时,表示在对应的分词位置分词;
所述根据所述各个分词位置分别对应在所述n个分词子结果中的状态值,获取所述各个分词位置的分词概率,包括:
对目标分词位置分别对应在所述n个分词子结果中的状态值取平均值,获得所述目标分词位置的分词概率;所述目标分词位置是所述各个分词位置中的任意一个分词位置。
在一种可能的实现方式中,所述通过所述结果合并模型中的激活函数对所述各个分词位置处的分词概率进行处理,获取所述文本序列的分词结果,包括:
通过所述激活函数对所述各个分词位置处的分词概率进行二值化处理,获得所述文本序列的二值化序列;
根据所述二值化序列获取所述文本序列的分词结果。
在一种可能的实现方式中,所述方法还包括:
通过所述文本序列,以及所述文本序列的分词结果训练分词模型。
根据本公开实施例的第二方面,提供了一种文本序列分词装置,所述装置包括:
分词子结果获取模块,用于获取文本序列的n个分词子结果,所述n个分词子结果是通过n个分词模型分别对所述文本序列进行分词处理获得的;所述分词子结果指示所述文本序列中的各个分词位置的分词状态;所述分词位置是所述文本序列中每两个相邻字符之间的位置;所述分词状态指示在对应的分词位置是否分词;n为大于或者等于2的整数;
概率获取模块,用于通过结果合并模型中的概率确定模型分支对所述n个分词子结果进行处理,获取所述各个分词位置的分词概率;
结果获取模块,用于通过所述结果合并中的激活函数对所述各个分词位置处的分词概率进行处理,获取所述文本序列的分词结果。
在一种可能的实现方式中,所述分词子结果包括所述文本序列中的各个分词位置各自的状态值,所述状态值用于指示对应分词位置的分词状态;
所述概率获取模块,用于通过所述概率确定模型分支,根据所述各个分词位置分别对应在所述n个分词子结果中的状态值,获取所述各个分词位置的分词概率。
在一种可能的实现方式中,所述概率确定模型分支中包含所述n个分词模型各自的权重;所述概率获取模块,包括:
加权子模块,用于通过所述概率确定模型分支,根据所述各个分词位置分别对应在所述n个分词子结果中的状态值,以及所述n个分词模型各自的权重,获取所述各个分词位置的分词加权值;
归一化子模块,用于通过所述概率确定模型分支,对所述各个分词位置的分词加权值进行归一化处理,获得所述各个分词位置的分词概率;
其中,所述结果合并模型是根据文本序列样本的n个分词子结果样本,以及所述文本序列样本的标注分词结果训练获得的机器学习模型,所述n个分词子结果样本是通过所述n个分词模型分别对所述文本序列样本进行分词处理获得的;所述n个分词模型各自的权重是所述结果合并模型的模型参数。
在一种可能的实现方式中,所述加权子模块,用于将目标分词位置分别对应在所述n个分词子结果中的状态值,分别与各自对应的分词模型的权重相乘后求和,获得所述目标分词位置的分词加权值;所述目标分词位置是所述各个分词位置中的任意一个分词位置。
在一种可能的实现方式中,当所述状态值为0时,表示在对应的分词位置未分词,当所述状态值为1时,表示在对应的分词位置分词;
所述概率获取模块,用于对目标分词位置分别对应在所述n个分词子结果中的状态值取平均值,获得所述目标分词位置的分词概率;所述目标分词位置是所述各个分词位置中的任意一个分词位置。
在一种可能的实现方式中,所述结果获取模块,包括:
二值化子模块,用于通过所述激活函数对所述各个分词位置处的分词概率进行二值化处理,获得所述文本序列的二值化序列;
结果获取子模块,用于根据所述二值化序列获取所述文本序列的分词结果。
在一种可能的实现方式中,所述装置还包括:
训练模块,用于通过所述文本序列,以及所述文本序列的分词结果训练分词模型。
根据本公开实施例的第三方面,提供了一种文本序列分词装置,所述装置包括:处理器;
用于存储所述处理器的可执行指令的存储器;
其中,所述处理器被配置为:
接收输入的文本序列,通过n个分词模型分别对所述文本序列进行分词处理;
获取文本序列的n个分词子结果;所述分词子结果指示所述文本序列中的各个分词位置的分词状态;所述分词位置是所述文本序列中每两个相邻字符之间的位置;所述分词状态指示在对应的分词位置是否分词;n为大于或者等于2的整数;
通过结果合并模型中的概率确定模型分支对所述n个分词子结果进行处理,获取所述各个分词位置的分词概率;
通过所述结果合并中的激活函数对所述各个分词位置处的分词概率进行处理,获取所述文本序列的分词结果。
根据本公开实施例的第四方面,提供了一种计算机设备,所述计算机设备包含处理器和存储器,所述存储器中存储由至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述第一方面或者第一方面的任一可选方案所述的文本序列分词方法。
根据本公开实施例的第五方面,提供了一种计算机可读存储介质,所述存储介质所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述第一方面或者第一方面的任一可选方案所述的文本序列分词方法。
本公开的实施例提供的技术方案可以包括以下有益效果:
通过多个分词模型对同一个文本序列进行分词处理,获得n个分词子结果,并对n个分词子结果中对应每个分词位置的分词状态进行合并,得到文本序列中每个分词位置的分词概率,再结合每个分词位置的分词概率来确定文本序列的分词结果。也就是说,本方案以文本序列中的每个分词位置为单位,对多个分词模型的分词结果进行合并,从而提高了对新出现的文本序列进行分词的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并于说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种文本序列分词方法的流程图;
图2是根据一示例性实施例示出的一种文本序列分词方法的流程图;
图3是根据一示例性实施例示出的模型训练及应用流程示意图;
图4是图3所示实施例涉及的标注模型的模型结构图;
图5是根据一示例性实施例示出的一种文本序列分词装置的框图;
图6是根据一示例性实施例示出的一种计算机设备的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
应当理解的是,在本文中提及的“若干个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本公开提供的方案可以用于人工智能(Artificial Intelligence,AI)场景,例如,可以用于基于AI的中文分词训练预料自动标注的场景,或者,也可以用于基于AI对文本序列进行分词的场景。为了便于理解,下面首先对本公开实施例涉及的一些名词以及应用场景进行简单介绍。
1)人工智能AI
AI是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学,其是计算机科学的一个分支。人工智能技术是企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的技术。人工智能在机器人、语言识别、图像识别、自然语言处理、自动驾驶等领域都有很广泛的应用。
2)自然语言处理NLP
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。自然语言处理研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,其是一门融语言学、计算机科学、数学于一体的科学。
在中文书写习惯中,文本通常只以标点符号进行分隔,而不会像英文一样以词为单位分隔。因此,对中文的文本序列进行分词,是针对中文的自然语言处理任务中的基础任务。
中文分词是指将一个中文(即汉字)文本序列切分成一个至多个单独的词,即像英文那样使得词与词之间以空格进行区分。中文分词任务通常由分词模型实现,对于中文分词任务,目前的分词模型的准确率普遍能达到90%甚至更高,而分词任务的突破口早已由模型优化转为语料采集。
然而业界优质的中文标注语料过于稀缺,涉及领域过于狭窄,加之中文语言词汇更迭速度较快,少量且陈旧的语料已无法适应各应用领域的分词模型的训练需求。
由于新语料的标注需要多名语言学专家花费大量时间完成,使用此方式获取标注语料准确率虽高但效率极其低下,成本亦相当高昂。当前训练语料的扩充通常是以数据增强(EasyData Augmentation,EDA)的方式实现的。
数据增强是在数据不足的情况下,使用微调的方法对数据进行处理,在尽量不改变原数据含义的情况下创造等价的数据,使得分词模型可以从多个角度对同一数据进行学习,防止过拟合。
在相关技术中,数据增强的方式包括定以下几种:同义词替换(SynonymsReplace,SR)、随机插入(Randomly Insert,RI)、随机交换(Randomly Swap,RS)和随机删除(Randomly Delete,RD)。
同义词替换SR是指在句子中随机抽取n个词(不考虑停用词),将其替换成同义词词典中随机抽取的同义词。比如“她非常美丽”可以替换为“她十分漂亮”。
随机插入RI是指从句子中随机抽取一个词(不考虑停用词),并在同义词词典中随机找一个该词的同义词,再将该同义词随机插入进句子中。该过程可重复n次。比如“她非常美丽”可以变换成“她非常十分美丽”。
随机交换RS是指在句子中随机选择两个词并交换位置,该过程可重复n次。比如“她非常美丽”可变换成“她美丽非常”。
随机删除RD是指对于句子中的每个词,以指定概率p随机进行删除。比如“她非常美丽”可变换成“她美丽”。
使用上述数据增强的方式可以使得训练出的分词模型变得更为鲁棒。并且,通过使用较少的人工标注数据结合数据增强对分词模型进行训练,就可以达到原本需要较多的人工标注数据对分词模型进行训练所能达到的训练效果。
然而,由于分词任务主要的错误来自未登录词(Out OfVocabulary,OOV),未登录词是指没有被收录在分词词表中但必须切分出来的词,包括各类专有名词(人名、地名、企业名等)、缩写词、新增词汇等等。而使用简单的数据增强并不能解决OOV的问题,从而导致训练出的分词模型在较新的文本上无法正确进行分词,也就是说,通过简单的数据增强或的训练预料,对于中文分词模型的训练效果提升较小。
而本公开后续的各个实施例,提供了一种通过多个已经训练完成的分词模型对同一个文本序列进行分词,以得到更为准确的分词结果的方案,该分词结果即可以作为对文本序列的标注结果,用作分词模型的训练语料,也可以作为对文本序列的分词结果并进行后续的自然语言处理的应用。
本公开实施例提供的文本序列分词方案可以由计算机设备执行。其中,该计算机设备可以是具有一定的计算能力的设备。比如,计算机设备可以是个人电脑、笔记本电脑、个人工作站或者服务器等等。
图1是根据一示例性实施例示出的一种文本序列分词方法的流程图,该文本序列分词方法可以由计算机设备执行。如图1所示,该文本序列分词方法可以包括以下步骤。
在步骤101中,获取文本序列的n个分词子结果,该n个分词子结果是通过n个分词模型分别对该文本序列进行分词处理获得的;该分词子结果指示该文本序列中的各个分词位置的分词状态;该分词位置是该文本序列中每两个相邻字符之间的位置;该分词状态指示在对应的分词位置是否分词。
其中,n为大于或者等于2的整数。
其中,计算机设备可以接收输入的文本序列,通过n个分词模型分别对文本序列进行分词处理。
在步骤102中,通过结果合并模型中的概率确定模型分支对该n个分词子结果进行出来,获取该各个分词位置的分词概率。
在步骤103中,通过该结果合并模型中的激活函数对该各个分词位置处的分词概率进行处理,获取该文本序列的分词结果。
在一种可能的实现方式中,该分词子结果包括该文本序列中的各个分词位置各自的状态值,该状态值用于指示对应分词位置的分词状态;
该通过结果合并模型中的概率确定模型分支对该n个分词子结果进行处理,获取该各个分词位置的分词概率,包括:
通过该概率确定模型分支,根据该各个分词位置分别对应在该n个分词子结果中的状态值,获取该各个分词位置的分词概率。
在一种可能的实现方式中,该概率确定模型分支中包含该n个分词模型各自的权重;该通过该概率确定模型分支,根据该各个分词位置分别对应在该n个分词子结果中的状态值,获取该各个分词位置的分词概率,包括:
通过该概率确定模型分支,根据该各个分词位置分别对应在该n个分词子结果中的状态值,以及该n个分词模型各自的权重,获取该各个分词位置的分词加权值;
通过该概率确定模型分支,对该各个分词位置的分词加权值进行归一化处理,获得该各个分词位置的分词概率;
其中,所述结果合并模型是根据文本序列样本的n个分词子结果样本,以及所述文本序列样本的标注分词结果训练获得的机器学习模型,所述n个分词子结果样本是通过所述n个分词模型分别对所述文本序列样本进行分词处理获得的;所述n个分词模型各自的权重是所述结果合并模型的模型参数。
在一种可能的实现方式中,该通过该概率确定模型分支,根据该各个分词位置分别对应在该n个分词子结果中的状态值,以及该n个分词模型各自的权重,获取该各个分词位置的分词加权值,包括:
将目标分词位置分别对应在该n个分词子结果中的状态值,分别与各自对应的分词模型的权重相乘后求和,获得该目标分词位置的分词加权值;该目标分词位置是该各个分词位置中的任意一个分词位置。
在一种可能的实现方式中,当该状态值为0时,表示在对应的分词位置未分词,当该状态值为1时,表示在对应的分词位置分词;
该根据该各个分词位置分别对应在该n个分词子结果中的状态值,获取该各个分词位置的分词概率,包括:
对目标分词位置分别对应在该n个分词子结果中的状态值取平均值,获得该目标分词位置的分词概率;该目标分词位置是该各个分词位置中的任意一个分词位置。
在一种可能的实现方式中,该通过该结果合并模型中的激活函数对该各个分词位置处的分词概率进行处理,获取该文本序列的分词结果,包括:
通过该激活函数对该各个分词位置处的分词概率进行二值化处理,获得该文本序列的二值化序列;
根据该二值化序列获取该文本序列的分词结果。
在一种可能的实现方式中,该方法还包括:
通过该文本序列,以及该文本序列的分词结果训练分词模型。
综上所述,本公开实施例所示的方案,通过多个分词模型对同一个文本序列进行分词处理,获得n个分词子结果,并对n个分词子结果中对应每个分词位置的分词状态进行合并,得到文本序列中每个分词位置的分词概率,再结合每个分词位置的分词概率来确定文本序列的分词结果。也就是说,本方案以文本序列中的每个分词位置为单位,对多个分词模型的分词结果进行合并,从而提高了对新出现的文本序列进行分词的准确性。
此外,本公开实施例所示的方案,获得的文本序列以及文本序列的分词结果可以进一步作为分词模型的训练预料,从而实现自动扩展分词模型的新的训练预料,由于该文本序列可以是新出现的文本序列,而不仅仅是对已有的训练语料进行简单数据增强,因此,通过本方案能够提高自动标注的训练语料对分词模型的训练效果。
图2是根据一示例性实施例示出的一种文本序列分词方法的流程图,该文本序列分词方法可以由计算机设备执行。如图2所示,该文本序列分词方法可以包括以下步骤。
在步骤201中,将文本序列分别输入n个分词模型,获得该n个分词模型分别对该文本序列处理得到的分词子结果。
其中,n为大于或者等于2的整数。
其中分词子结果指示该文本序列中的各个分词位置的分词状态;该分词位置是该文本序列中每两个相邻字符之间的位置;该分词状态指示在对应的分词位置是否分词。
可选的,该分词子结果包括该文本序列中的各个分词位置各自的状态值,该状态值用于指示对应分词位置的分词状态。
比如,在一种可能的实现方式中,分词状态分为两种:一种是分词,另一种是不分词,两种分词状态可以通过不同的状态值来表示,相应的,上述分词子结果可以是一个状态值序列,该序列中每个状态值对应文本序列中的一个位置。
例如,文本序列为“今天天气怎样?”,其中,按照每相邻两个字符之间的位置为一个分词位置,则上述文本序列中可以包含6个分词位置,进一步的,如果文本序列的结束位置也作为一个分词位置,则该文本序列可以包含7个分词位置。上述分词状态的状态值可以表示为0或1,例如,当某个分词位置的分词状态为分词时,该分词位置的分词状态的状态值为1,反之,如果该分词位置的分词状态为不分词,则该分词位置的分词状态的状态值为0。假设n个分词模型中某个分词模型1对上述文本序列的分词结子结果为“今天/天气/怎/样/?”,则该分词子结果可以序列表示为[0,1,0,1,1,1]或者[0,1,0,1,1,1,1]。相应的,假设另一个分词模型2对上述文本序列的分词结子结果为“今天/天气/怎样/?”,则该分词子结果可以序列表示为[0,1,0,1,0,1]或者[0,1,0,1,0,1,1]。也就是说,上述n个分词模型分别对同一个文本序列进行分词获得的分词子结果可以相同,也可以不同,并且,当两个分词子结果不同时,可以是指两个分词子结果中部分分词位置上的分词状态不同。
在步骤202中,通过结果合并模型中的概率确定模型分支,根据该各个分词位置分别对应在该n个分词子结果中的状态值,获取该各个分词位置的分词概率。
在本公开实施例中,上述结果合并模型中的概率确定模型分支,可以根据各个分词位置中的每个分词位置分别对应在n个分词子结果中的状态值,计算确定对应的分词位置的分词概率。
例如,假设分词模型1的分词子结果为[0,1,0,1,1,1],而分词模型2的分词子结果为[0,1,0,1,0,1],则对于第1个分词位置,两个分词子结果的状态值都为0,则计算机设备可以将两个分词子结果中第1个分词位置的状态值进行合并,得到文本序列中第1个分词位置的分词概率,类似的,计算机设备可以将两个分词子结果中第1个分词位置的状态值(即1和1)合并,得到文本序列中第2个分词位置的分词概率,以此类推。
在一种可能的实现方式中,上述通过概率确定模型分支,根据该各个分词位置分别对应在该n个分词子结果中的状态值,获取该各个分词位置的分词概率,以及根据分词概率获得分词结果的步骤,可以通过预先训练好的机器学习模型进行,也就是说,上述结果合并模型可以是一个通过机器学习算法训练得到的模型。
比如,上述结果合并模型可以是根据文本序列样本的n个分词子结果样本,以及该文本序列样本的标注分词结果训练获得的机器学习模型,该n个分词子结果样本是通过该n个分词模型分别对该文本序列样本进行分词处理获得的。
例如,在上述结果合并模型的训练阶段,计算机设备可以先获取若干个已经标注好分词结果(可以是人工标注的)的文本序列样本,然后将文本序列样本分别输入至n个分词模型,得到n个分词子模型各自的分词子结果样本,然后通过n个分词子结果样本,以及标注好的该文本序列样本的的分词结果,对该结果合并模型进行合并。
可选的,上述结果合并模型可以是一个线性回归模型(Linear Regression,LR)。或者,上述结果合并模型也可以是支持向量机(Support Vector Machine,SVM)模型或者决策树模型等等。
在一种可能的实现方式中,上述概率确定模型分支中可以包含该n个分词模型各自的权重,也就是说,该n个分词模型各自的权重是该结果合并模型的模型参数。在通过该概率确定模型分支,根据该各个分词位置分别对应在该n个分词子结果中的状态值,获取该各个分词位置的分词概率时,计算机设备可以通过该概率确定模型分支,根据该各个分词位置分别对应在该n个分词子结果中的状态值,以及该n个分词模型各自的权重,获取该各个分词位置的分词加权值;并通过该概率确定模型分支,对该各个分词位置的分词加权值进行归一化处理,获得该各个分词位置的分词概率。
其中,由于结果合并模型的输入是n个分词子结果,且不同的分词子结果对应不同的分词模型,而不同的分词模型的准确度也不相同,因此,在本公开实施例中,可以对各分词模型分别设置不同的权重,该权重可以通过预先对结果合并模型进行训练确定,也就是说,上述对结果合并模型的训练过程中,可以包括对各分词模型的权重进行训练。
在上述各个分词模型的权重训练完成后,即可以通过各个分词模型的权重,对同一分词位置在不同分词模型输出的结果中的状态值进行计算,得到该分词位置上的分词加权值,最后对各个分词位置上的分词加权值进行归一化处理,即可以得到各个分词位置的分词概率。
可选的,在通过该概率确定模型分支,根据该各个分词位置分别对应在该n个分词子结果中的状态值,以及该n个分词模型各自的权重,获取该各个分词位置的分词加权值时,计算机设备可以将目标分词位置分别对应在该n个分词子结果中的状态值,分别与各自对应的分词模型的权重相乘后求和,获得该目标分词位置的分词加权值;该目标分词位置是该各个分词位置中的任意一个分词位置。
其中,上述分词模型的权重可以是一个在(0,1)区间内的浮点数。
例如,假设有3个分词模型,各个分词模型的权重分别为0.2、0.3和0.4,对于某个文本序列中某个分词位置k,这3个分词模型分别对该文本序列输出的子结果中,对应该分词位置k的状态值分别为1、1和0;而对于该文本序列中某个分词位置1,这3个分词模型分别对该文本序列输出的子结果中,对应该分词位置l的状态值分别为0、1和1;则该文本序列对应在分词位置k上的分词加权值可以为1*0.2+1*0.3+0*0.4=0.5,且该文本序列对应在分词位置l上的分词加权值可以为01*0.2+1*0.3+1*0.4=0.7。
由于文本序列的长度固定,分词位置也是固定的,因此,每个分词子结果中都有相同个数的状态值,相应的,计算获得的分词加权值的个数也是固定的。例如,假设某个文本序列中有6个分词位置,则该文本序列的每个分词子结果是一个长度为6的状态值序列,而分词加权值的计算结果也是一个长度为6的分词加权值序列。
在另一种可能的实现方式中,上述结果合并模型也可以是一个预先设置好的计算模型,该计算模型可以视为一个预先设置好参数的计算公式。
比如,如果该状态值为0时,表示在对应的分词位置未分词,当该状态值为1时,表示在对应的分词位置分词;则在根据该各个分词位置分别对应在该n个分词子结果中的状态值,获取该各个分词位置的分词概率时,计算机设备可以对目标分词位置分别对应在该n个分词子结果中的状态值取平均值,获得该目标分词位置的分词概率;其中,该目标分词位置是该各个分词位置中的任意一个分词位置。
例如,以对于某个文本序列中某个分词位置k,这3个分词模型分别对该文本序列输出的子结果中,对应该分词位置k的状态值分别为1、1和0;而对于该文本序列中某个分词位置1,这3个分词模型分别对该文本序列输出的子结果中,对应该分词位置1的状态值分别为0、1和1;则该文本序列对应在分词位置k上的分词概率可以为(1+1+0)/3=2/3,且该文本序列对应在分词位置1上的分词概率可以为(0+1+1)/3=2/3。
在步骤203中,通过该结果合并中的激活函数对该各个分词位置处的分词概率进行二值化处理,获得该文本序列的二值化序列。
其中,上述二值化序列可以是一个长度与文本序列中的分词位置的数量相同,且序列中每个序列值对应一个分词位置的分词状态的序列。
在一种可能的实现方式中,在通过激活函数对该各个分词位置处的分词概率进行二值化处理时,可以设置一个二值化阈值,若某一分词位置的分词概率小于该二值化阈值,则二值化序列中对应该分词位置的序列值设置为0,反之,如果该分词位置的分词概率不小于该二值化阈值,则二值化序列中对应该分词位置的序列值设置为1。
在步骤204中,根据该二值化序列获取该文本序列的分词结果。
其中,以上述二值化序列的序列值为0或1为例,当二值化序列中某个序列值为0,则表示该文本序列的分词结果中,在该序列值对应的分词位置处不分词,反之,如果该二值化序列中某个序列值为1,则表示该文本序列的分词结果中,在该序列值对应的分词位置处分词。
可选的,在本公开实施例中,计算机设备获得文本序列的分词结果后,还可以通过该文本序列,以及该文本序列的分词结果训练分词模型。
计算机设备可以将上述步骤对文本序列的分词结果,以及该文本序列本身作为一个新的训练语料,用于对分词模型进行训练。其中,该分词模型可以是上述n个分词模型中的一个或者多个,或者,该分词模型也可以是上述n个分词模型之外的其它分词模型。也就是说,通过本公开实施例所示的方案,可以自动将一个新的文本序列标注为分词模型的新的训练语料。
综上所述,本公开实施例所示的方案,通过多个分词模型对同一个文本序列进行分词处理,获得n个分词子结果,并对n个分词子结果中对应每个分词位置的分词状态进行合并,得到文本序列中每个分词位置的分词概率,再结合每个分词位置的分词概率来确定文本序列的分词结果。也就是说,本方案以文本序列中的每个分词位置为单位,对多个分词模型的分词结果进行合并,从而提高了对新出现的文本序列进行分词的准确性。
此外,本公开实施例所示的方案,获得的文本序列以及文本序列的分词结果可以进一步作为分词模型的训练预料,从而实现自动扩展分词模型的新的训练预料,由于该文本序列可以是新出现的文本序列,而不仅仅是对已有的训练语料进行简单数据增强,因此,通过本方案能够提高自动标注的训练语料对分词模型的训练效果。
此外,本公开实施例所示的方案,在对多个分词模型的分词结果进行合并时,对不同的分词模型输出的分词子结果设置不同的权重,从而进一步提升对新出现的文本序列进行分词的准确性。
本公开上述实施例所示的方案,可以视为一种基于局部投票的分词语料自动标注方法,其可以使用多个现有已公开可供调用的优质分词模型对生语料(即新的文本序列)进行标注,然后使用模型融合的方法,对多个标注结果(即上述分词子结果)进行局部加权投票(即根据权重进行合并)。请参考图3,图3是根据一示例性实施例示出的模型训练及应用流程示意图。如图3所示,先将训练语料30a与初始化的随机参数30b传入标注模型31中,并使用线性回归训练各分词模型对应的参数。训练完毕后将待标注文本30c与已训练好的参数30d再次传回模型31,便可得到正确的已标注数据30e。
请参考图4,其示出了本公开实施例涉及的标注模型的模型结构图。如图4所示,模型1至模型N是现有的已经训练好的分词模型,当文本序列41传入模型1至模型N中的某个模型i时,会生成模型i的分词结果42(亦即标注结果)。以0为不切分,1为切分,可以将标注结果转化为与文本等长的0-1序列,比如,该序列可以为a=[a0a1...am]。例如文本“今天天气怎样?”切分后的结果为“今天/天气/怎/样/?”,转化为0-1序列后可表示为[0 1 0 1 1 11]。
计算机设备将模型1至模型N各自输出的0-1序列,乘上各个模型各自对应的参数wi(对应图4中的w1至wn),然后再通过线性回归LR模型43对相同位置进行相加求和,即可以得到文本序列中每个位置的切分权重cj
Figure BDA0002268674850000161
至此,即可以得到文本序列每个位置的切分权重序列c=[c0c1...cm]。
计算机设备再对每个位置的分词权重做归一化处理,即可以可得到每个位置对应的切分概率pj
Figure BDA0002268674850000162
通过上述公式即可以得到文本每个位置的切分概率序列p=[p0p1...pm]。然后,计算机设备将切分概率传入激活函数:
上述激活函数所得结果即为对应的0-1序列(对应上述二值化序列)。
整合上述公式,分词结果序列s可表示为:
基于本公开上述方案,选择7个业界效果较好的分词模型进行投票(即结果合并),并将投票结果与单一分词结果逐个进行比较,在不一致的分词结果中随机抽取400条对比投票后的修正和修错数量。在不考虑因分词标准造成的差异的情况下,结果如下表1所示:
Figure BDA0002268674850000165
Figure BDA0002268674850000171
表1
从上述表1可看出,投票结果在最坏情况下,亦可修正单一分词器69个错误,且引入错误结果的数量远远小于修正数。该实验结果表明:使用本公开实施例提供的多模型局部投票所获得的结果远强于单一分词器的分词结果。
本公开所示的方案基于模型融合思想,可融合多个分词模型的分词子结果并获得优于任何单一分词器的分词结果。若所选择的基模型为业内SOTA模型,则所获得的分词结果也将好于SOTA模型。
与传统通过数据增强扩展训练语料的方式不同,本公开所示的方法可引入全新的语料,而不再受陈旧语料中的词汇、句式等约束。除此之外,只要源语料中的文本符合中文表达规范,便无需担心会像数据增强方法一样扩展出与真实语法场景不符的语料。综上所述,使用本公开所示的方案进行语料扩充,能使模型能够学习更为全面、更为广泛、更加接近真实应用场景的语料。
图5是根据一示例性实施例示出的一种文本序列分词装置的框图,如图5所示,该文本序列分词装置可以通过硬件或者软硬结合的方式实现为计算机设备终端的全部或者部分,以执行图1或图2所示实施例中的部分或者全部步骤。该文本序列分词装置可以包括:
分词子结果获取模块501,用于获取文本序列的n个分词子结果,所述n个分词子结果是通过n个分词模型分别对所述文本序列进行分词处理获得的;所述分词子结果指示所述文本序列中的各个分词位置的分词状态;所述分词位置是所述文本序列中每两个相邻字符之间的位置;所述分词状态指示在对应的分词位置是否分词;n为大于或者等于2的整数;
概率获取模块502,用于通过结果合并模型中的概率确定模型分支对所述n个分词子结果进行处理,获取所述各个分词位置的分词概率;
结果获取模块503,用于通过所述结果合并中的激活函数对所述各个分词位置处的分词概率进行处理,获取所述文本序列的分词结果。
在一种可能的实现方式中,所述分词子结果包括所述文本序列中的各个分词位置各自的状态值,所述状态值用于指示对应分词位置的分词状态;
所述概率获取模块502,用于通过所述概率确定模型分支,根据所述各个分词位置分别对应在所述n个分词子结果中的状态值,获取所述各个分词位置的分词概率。
在一种可能的实现方式中,所述概率确定模型分支中包含所述n个分词模型各自的权重;所述概率获取模块502,包括:
加权子模块,用于通过所述概率确定模型分支,根据所述各个分词位置分别对应在所述n个分词子结果中的状态值,以及所述n个分词模型各自的权重,获取所述各个分词位置的分词加权值;
归一化子模块,用于通过所述概率确定模型分支,对所述各个分词位置的分词加权值进行归一化处理,获得所述各个分词位置的分词概率;
其中,所述结果合并模型是根据文本序列样本的n个分词子结果样本,以及所述文本序列样本的标注分词结果训练获得的机器学习模型,所述n个分词子结果样本是通过所述n个分词模型分别对所述文本序列样本进行分词处理获得的;所述n个分词模型各自的权重是所述结果合并模型的模型参数。
在一种可能的实现方式中,所述加权子模块,用于将目标分词位置分别对应在所述n个分词子结果中的状态值,分别与各自对应的分词模型的权重相乘后求和,获得所述目标分词位置的分词加权值;所述目标分词位置是所述各个分词位置中的任意一个分词位置。
在一种可能的实现方式中,当所述状态值为0时,表示在对应的分词位置未分词,当所述状态值为1时,表示在对应的分词位置分词;
所述概率获取模块502,用于对目标分词位置分别对应在所述n个分词子结果中的状态值取平均值,获得所述目标分词位置的分词概率;所述目标分词位置是所述各个分词位置中的任意一个分词位置。
在一种可能的实现方式中,所述结果获取模块503,包括:
二值化子模块,用于通过所述激活函数对所述各个分词位置处的分词概率进行二值化处理,获得所述文本序列的二值化序列;
结果获取子模块,用于根据所述二值化序列获取所述文本序列的分词结果。
在一种可能的实现方式中,所述装置还包括:
训练模块,用于通过所述文本序列,以及所述文本序列的分词结果训练分词模型。
综上所述,本公开实施例所示的方案,通过多个分词模型对同一个文本序列进行分词处理,获得n个分词子结果,并对n个分词子结果中对应每个分词位置的分词状态进行合并,得到文本序列中每个分词位置的分词概率,再结合每个分词位置的分词概率来确定文本序列的分词结果。也就是说,本方案以文本序列中的每个分词位置为单位,对多个分词模型的分词结果进行合并,从而提高了对新出现的文本序列进行分词的准确性。
此外,本公开实施例所示的方案,获得的文本序列以及文本序列的分词结果可以进一步作为分词模型的训练预料,从而实现自动扩展分词模型的新的训练预料,由于该文本序列可以是新出现的文本序列,而不仅仅是对已有的训练语料进行简单数据增强,因此,通过本方案能够提高自动标注的训练语料对分词模型的训练效果。
此外,本公开实施例所示的方案,在对多个分词模型的分词结果进行合并时,对不同的分词模型输出的分词子结果设置不同的权重,从而进一步提升对新出现的文本序列进行分词的准确性。
需要说明的一点是,上述实施例提供的装置在实现其功能时,仅以上述各个功能模块的划分进行举例说明,实际应用中,可以根据实际需要而将上述功能分配由不同的功能模块完成,即将设备的内容结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本公开一示例性实施例提供了一种文本序列分词装置,能够实现本公开上述图1或图2所示实施例中的全部或部分步骤,该装置用于计算机设备中。该文本序列分词装置包括:处理器、用于存储处理器可执行指令的存储器;
其中,处理器被配置为:
获取文本序列的n个分词子结果,所述n个分词子结果是通过n个分词模型分别对所述文本序列进行分词处理获得的;所述分词子结果指示所述文本序列中的各个分词位置的分词状态;所述分词位置是所述文本序列中每两个相邻字符之间的位置;所述分词状态指示在对应的分词位置是否分词;n为大于或者等于2的整数;
通过结果合并模型中的概率确定模型分支对所述n个分词子结果进行处理,获取所述各个分词位置的分词概率;
通过所述结果合并中的激活函数对所述各个分词位置处的分词概率进行处理,获取所述文本序列的分词结果。
在一种可能的实现方式中,所述分词子结果包括所述文本序列中的各个分词位置各自的状态值,所述状态值用于指示对应分词位置的分词状态;
所述通过结果合并模型中的概率确定模型分支对所述n个分词子结果进行处理,获取所述各个分词位置的分词概率,包括:
通过所述概率确定模型分支,根据所述各个分词位置分别对应在所述n个分词子结果中的状态值,获取所述各个分词位置的分词概率。
在一种可能的实现方式中,所述概率确定模型分支中包含所述n个分词模型各自的权重;所述通过所述概率确定模型分支,根据所述各个分词位置分别对应在所述n个分词子结果中的状态值,获取所述各个分词位置的分词概率,包括:
通过所述概率确定模型分支,根据所述各个分词位置分别对应在所述n个分词子结果中的状态值,以及所述n个分词模型各自的权重,获取所述各个分词位置的分词加权值;
通过所述概率确定模型分支,对所述各个分词位置的分词加权值进行归一化处理,获得所述各个分词位置的分词概率;
其中,所述结果合并模型是根据文本序列样本的n个分词子结果样本,以及所述文本序列样本的标注分词结果训练获得的机器学习模型,所述n个分词子结果样本是通过所述n个分词模型分别对所述文本序列样本进行分词处理获得的;所述n个分词模型各自的权重是所述结果合并模型的模型参数。
在一种可能的实现方式中,所述通过所述概率确定模型分支,根据所述各个分词位置分别对应在所述n个分词子结果中的状态值,以及所述n个分词模型各自的权重,获取所述各个分词位置的分词加权值,包括:
将目标分词位置分别对应在所述n个分词子结果中的状态值,分别与各自对应的分词模型的权重相乘后求和,获得所述目标分词位置的分词加权值;所述目标分词位置是所述各个分词位置中的任意一个分词位置。
在一种可能的实现方式中,当所述状态值为0时,表示在对应的分词位置未分词,当所述状态值为1时,表示在对应的分词位置分词;
所述根据所述各个分词位置分别对应在所述n个分词子结果中的状态值,获取所述各个分词位置的分词概率,包括:
对目标分词位置分别对应在所述n个分词子结果中的状态值取平均值,获得所述目标分词位置的分词概率;所述目标分词位置是所述各个分词位置中的任意一个分词位置。
在一种可能的实现方式中,所述通过所述结果合并模型中的激活函数对所述各个分词位置处的分词概率进行处理,获取所述文本序列的分词结果,包括:
通过所述激活函数对所述各个分词位置处的分词概率进行二值化处理,获得所述文本序列的二值化序列;
根据所述二值化序列获取所述文本序列的分词结果。
在一种可能的实现方式中,所述处理器还被配置为:
通过所述文本序列,以及所述文本序列的分词结果训练分词模型。
图6是根据一示例性实施例示出的一种计算机设备的结构示意图。所述计算机设备600包括中央处理单元(CPU)601、包括随机存取存储器(RAM)602和只读存储器(ROM)603的系统存储器604,以及连接系统存储器604和中央处理单元601的系统总线605。所述计算机设备600还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)606,和用于存储操作系统613、应用程序614和其他程序模块615的大容量存储设备607。
所述基本输入/输出系统606包括有用于显示信息的显示器608和用于用户输入信息的诸如鼠标、键盘之类的输入设备609。其中所述显示器608和输入设备609都通过连接到系统总线605的输入输出控制器610连接到中央处理单元601。所述基本输入/输出系统606还可以包括输入输出控制器610以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器610还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备607通过连接到系统总线605的大容量存储控制器(未示出)连接到中央处理单元601。所述大容量存储设备607及其相关联的计算机可读介质为计算机设备600提供非易失性存储。也就是说,所述大容量存储设备607可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术,CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器604和大容量存储设备607可以统称为存储器。
根据本公开的各种实施例,所述计算机设备600还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备600可以通过连接在所述系统总线605上的网络接口单元611连接到网络612,或者说,也可以使用网络接口单元611来连接到其他类型的网络或远程计算机系统(未示出)。
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,中央处理器601通过执行该一个或一个以上程序来实现图1或图2所示的方法的全部或者部分步骤。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本公开实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
本公开实施例还提供了一种计算机存储介质,用于储存为上述终端所用的计算机软件指令,其包含用于执行上述文本序列分词方法所设计的程序。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (16)

1.一种文本序列分词方法,其特征在于,所述方法包括:
接收输入的文本序列,通过n个分词模型分别对所述文本序列进行分词处理;
获取所述文本序列的n个分词子结果;所述分词子结果指示所述文本序列中的各个分词位置的分词状态;所述分词位置是所述文本序列中每两个相邻字符之间的位置;所述分词状态指示在对应的分词位置是否分词;n为大于或者等于2的整数;
通过结果合并模型中的概率确定模型分支对所述n个分词子结果进行处理,获取所述各个分词位置的分词概率;
通过所述结果合并中的激活函数对所述各个分词位置处的分词概率进行处理,获取所述文本序列的分词结果。
2.根据权利要求1所述的方法,其特征在于,所述分词子结果包括所述文本序列中的各个分词位置各自的状态值,所述状态值用于指示对应分词位置的分词状态;
所述通过结果合并模型中的概率确定模型分支对所述n个分词子结果进行处理,获取所述各个分词位置的分词概率,包括:
通过所述概率确定模型分支,根据所述各个分词位置分别对应在所述n个分词子结果中的状态值,获取所述各个分词位置的分词概率。
3.根据权利要求2所述的方法,其特征在于,所述概率确定模型分支中包含所述n个分词模型各自的权重;所述通过所述概率确定模型分支,根据所述各个分词位置分别对应在所述n个分词子结果中的状态值,获取所述各个分词位置的分词概率,包括:
通过所述概率确定模型分支,根据所述各个分词位置分别对应在所述n个分词子结果中的状态值,以及所述n个分词模型各自的权重,获取所述各个分词位置的分词加权值;
通过所述概率确定模型分支,对所述各个分词位置的分词加权值进行归一化处理,获得所述各个分词位置的分词概率;
其中,所述结果合并模型是根据文本序列样本的n个分词子结果样本,以及所述文本序列样本的标注分词结果训练获得的机器学习模型,所述n个分词子结果样本是通过所述n个分词模型分别对所述文本序列样本进行分词处理获得的;所述n个分词模型各自的权重是所述结果合并模型的模型参数。
4.根据权利要求3所述的方法,其特征在于,所述通过所述概率确定模型分支,根据所述各个分词位置分别对应在所述n个分词子结果中的状态值,以及所述n个分词模型各自的权重,获取所述各个分词位置的分词加权值,包括:
将目标分词位置分别对应在所述n个分词子结果中的状态值,分别与各自对应的分词模型的权重相乘后求和,获得所述目标分词位置的分词加权值;所述目标分词位置是所述各个分词位置中的任意一个分词位置。
5.根据权利要求2所述的方法,其特征在于,当所述状态值为0时,表示在对应的分词位置未分词,当所述状态值为1时,表示在对应的分词位置分词;
所述根据所述各个分词位置分别对应在所述n个分词子结果中的状态值,获取所述各个分词位置的分词概率,包括:
对目标分词位置分别对应在所述n个分词子结果中的状态值取平均值,获得所述目标分词位置的分词概率;所述目标分词位置是所述各个分词位置中的任意一个分词位置。
6.根据权利要求1至5任一所述的方法,其特征在于,所述通过所述结果合并模型中的激活函数对所述各个分词位置处的分词概率进行处理,获取所述文本序列的分词结果,包括:
通过所述激活函数对所述各个分词位置处的分词概率进行二值化处理,获得所述文本序列的二值化序列;
根据所述二值化序列获取所述文本序列的分词结果。
7.根据权利要求1至5任一所述的方法,其特征在于,所述方法还包括:
通过所述文本序列,以及所述文本序列的分词结果训练分词模型。
8.一种文本序列分词装置,其特征在于,所述装置包括:
分词子结果获取模块,用于获取文本序列的n个分词子结果,所述n个分词子结果是通过n个分词模型分别对所述文本序列进行分词处理获得的;所述分词子结果指示所述文本序列中的各个分词位置的分词状态;所述分词位置是所述文本序列中每两个相邻字符之间的位置;所述分词状态指示在对应的分词位置是否分词;n为大于或者等于2的整数;
概率获取模块,用于通过结果合并模型中的概率确定模型分支对所述n个分词子结果进行处理,获取所述各个分词位置的分词概率;
结果获取模块,用于通过所述结果合并中的激活函数对所述各个分词位置处的分词概率进行处理,获取所述文本序列的分词结果。
9.根据权利要求8所述的装置,其特征在于,所述分词子结果包括所述文本序列中的各个分词位置各自的状态值,所述状态值用于指示对应分词位置的分词状态;
所述概率获取模块,用于通过所述概率确定模型分支,根据所述各个分词位置分别对应在所述n个分词子结果中的状态值,获取所述各个分词位置的分词概率。
10.根据权利要求9所述的装置,其特征在于,所述概率确定模型分支中包含所述n个分词模型各自的权重;所述概率获取模块,包括:
加权子模块,用于通过所述概率确定模型分支,根据所述各个分词位置分别对应在所述n个分词子结果中的状态值,以及所述n个分词模型各自的权重,获取所述各个分词位置的分词加权值;
归一化子模块,用于通过所述概率确定模型分支,对所述各个分词位置的分词加权值进行归一化处理,获得所述各个分词位置的分词概率;
其中,所述结果合并模型是根据文本序列样本的n个分词子结果样本,以及所述文本序列样本的标注分词结果训练获得的机器学习模型,所述n个分词子结果样本是通过所述n个分词模型分别对所述文本序列样本进行分词处理获得的;所述n个分词模型各自的权重是所述结果合并模型的模型参数。
11.根据权利要求10所述的装置,其特征在于,
所述加权子模块,用于将目标分词位置分别对应在所述n个分词子结果中的状态值,分别与各自对应的分词模型的权重相乘后求和,获得所述目标分词位置的分词加权值;所述目标分词位置是所述各个分词位置中的任意一个分词位置。
12.根据权利要求9所述的装置,其特征在于,当所述状态值为0时,表示在对应的分词位置未分词,当所述状态值为1时,表示在对应的分词位置分词;
所述概率获取模块,用于对目标分词位置分别对应在所述n个分词子结果中的状态值取平均值,获得所述目标分词位置的分词概率;所述目标分词位置是所述各个分词位置中的任意一个分词位置。
13.根据权利要求8至12任一所述的装置,其特征在于,所述结果获取模块,包括:
二值化子模块,用于通过所述激活函数对所述各个分词位置处的分词概率进行二值化处理,获得所述文本序列的二值化序列;
结果获取子模块,用于根据所述二值化序列获取所述文本序列的分词结果。
14.根据权利要求8至12任一所述的装置,其特征在于,所述装置还包括:
训练模块,用于通过所述文本序列,以及所述文本序列的分词结果训练分词模型。
15.一种文本序列分词装置,其特征在于,所述装置包括:
处理器;
用于存储所述处理器的可执行指令的存储器;
其中,所述处理器被配置为:
接收输入的文本序列,通过n个分词模型分别对所述文本序列进行分词处理;
获取所述文本序列的n个分词子结果;所述分词子结果指示所述文本序列中的各个分词位置的分词状态;所述分词位置是所述文本序列中每两个相邻字符之间的位置;所述分词状态指示在对应的分词位置是否分词;n为大于或者等于2的整数;
通过结果合并模型中的概率确定模型分支对所述n个分词子结果进行处理,获取所述各个分词位置的分词概率;
通过所述结果合并中的激活函数对所述各个分词位置处的分词概率进行处理,获取所述文本序列的分词结果。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包含可执行指令,终端中的处理器调用所述可执行指令以实现上述权利要求1至7任一所述的文本序列分词方法。
CN201911097121.1A 2019-11-11 2019-11-11 文本序列分词方法、装置及存储介质 Active CN110795938B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201911097121.1A CN110795938B (zh) 2019-11-11 2019-11-11 文本序列分词方法、装置及存储介质
US16/861,295 US11157686B2 (en) 2019-11-11 2020-04-29 Text sequence segmentation method, apparatus and device, and storage medium thereof
EP20177416.3A EP3819808A1 (en) 2019-11-11 2020-05-29 Text sequence segmentation method and device, and storage medium thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911097121.1A CN110795938B (zh) 2019-11-11 2019-11-11 文本序列分词方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN110795938A true CN110795938A (zh) 2020-02-14
CN110795938B CN110795938B (zh) 2023-11-10

Family

ID=69443944

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911097121.1A Active CN110795938B (zh) 2019-11-11 2019-11-11 文本序列分词方法、装置及存储介质

Country Status (3)

Country Link
US (1) US11157686B2 (zh)
EP (1) EP3819808A1 (zh)
CN (1) CN110795938B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291560A (zh) * 2020-03-06 2020-06-16 深圳前海微众银行股份有限公司 样本扩充方法、终端、装置及可读存储介质
CN111523308A (zh) * 2020-03-18 2020-08-11 大箴(杭州)科技有限公司 中文分词的方法、装置及计算机设备
CN111858935A (zh) * 2020-07-13 2020-10-30 北京航空航天大学 一种航班点评的细粒度情感分类系统
CN112199952A (zh) * 2020-12-04 2021-01-08 支付宝(杭州)信息技术有限公司 一种分词方法、多模式分词模型和系统
CN113033193A (zh) * 2021-01-20 2021-06-25 山谷网安科技股份有限公司 一种基于c++语言的混合型中文文本分词方法
CN114021582A (zh) * 2021-12-30 2022-02-08 深圳市北科瑞声科技股份有限公司 结合语音信息的口语理解方法、装置、设备及存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079421B (zh) * 2019-11-25 2023-09-26 北京小米智能科技有限公司 一种文本信息分词处理的方法、装置、终端及存储介质
CN113205160B (zh) * 2021-07-05 2022-03-04 北京世纪好未来教育科技有限公司 模型训练、文本识别方法、装置、电子设备和介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104317882A (zh) * 2014-10-21 2015-01-28 北京理工大学 一种决策级中文分词融合方法
CN108334492A (zh) * 2017-12-05 2018-07-27 腾讯科技(深圳)有限公司 文本分词、即时消息处理方法和装置
CN109829162A (zh) * 2019-01-30 2019-05-31 新华三大数据技术有限公司 一种文本分词方法及装置
CN109948149A (zh) * 2019-02-28 2019-06-28 腾讯科技(深圳)有限公司 一种文本分类方法及装置
CN110222328A (zh) * 2019-04-08 2019-09-10 平安科技(深圳)有限公司 基于神经网络的分词和词类标注方法、装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7493251B2 (en) 2003-05-30 2009-02-17 Microsoft Corporation Using source-channel models for word segmentation

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104317882A (zh) * 2014-10-21 2015-01-28 北京理工大学 一种决策级中文分词融合方法
CN108334492A (zh) * 2017-12-05 2018-07-27 腾讯科技(深圳)有限公司 文本分词、即时消息处理方法和装置
CN109829162A (zh) * 2019-01-30 2019-05-31 新华三大数据技术有限公司 一种文本分词方法及装置
CN109948149A (zh) * 2019-02-28 2019-06-28 腾讯科技(深圳)有限公司 一种文本分类方法及装置
CN110222328A (zh) * 2019-04-08 2019-09-10 平安科技(深圳)有限公司 基于神经网络的分词和词类标注方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
GE YUNSHENG: "Chinese word segmentation model based on BI_GRU_AT_HN_CRF_6" *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291560A (zh) * 2020-03-06 2020-06-16 深圳前海微众银行股份有限公司 样本扩充方法、终端、装置及可读存储介质
CN111523308A (zh) * 2020-03-18 2020-08-11 大箴(杭州)科技有限公司 中文分词的方法、装置及计算机设备
CN111523308B (zh) * 2020-03-18 2024-01-26 大箴(杭州)科技有限公司 中文分词的方法、装置及计算机设备
CN111858935A (zh) * 2020-07-13 2020-10-30 北京航空航天大学 一种航班点评的细粒度情感分类系统
CN112199952A (zh) * 2020-12-04 2021-01-08 支付宝(杭州)信息技术有限公司 一种分词方法、多模式分词模型和系统
CN112199952B (zh) * 2020-12-04 2021-03-23 支付宝(杭州)信息技术有限公司 一种分词方法、多模式分词模型和系统
CN113033193A (zh) * 2021-01-20 2021-06-25 山谷网安科技股份有限公司 一种基于c++语言的混合型中文文本分词方法
CN113033193B (zh) * 2021-01-20 2024-04-16 山谷网安科技股份有限公司 一种基于c++语言的混合型中文文本分词方法
CN114021582A (zh) * 2021-12-30 2022-02-08 深圳市北科瑞声科技股份有限公司 结合语音信息的口语理解方法、装置、设备及存储介质
CN114021582B (zh) * 2021-12-30 2022-04-01 深圳市北科瑞声科技股份有限公司 结合语音信息的口语理解方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN110795938B (zh) 2023-11-10
US20210141998A1 (en) 2021-05-13
EP3819808A1 (en) 2021-05-12
US11157686B2 (en) 2021-10-26

Similar Documents

Publication Publication Date Title
CN110795938B (zh) 文本序列分词方法、装置及存储介质
CN110717039B (zh) 文本分类方法和装置、电子设备、计算机可读存储介质
CN111309915B (zh) 联合学习的自然语言训练方法、系统、设备及存储介质
Ling et al. Latent predictor networks for code generation
CN110232183B (zh) 关键词提取模型训练方法、关键词提取方法、装置及存储介质
CN110287480B (zh) 一种命名实体识别方法、装置、存储介质及终端设备
CN107273356B (zh) 基于人工智能的分词方法、装置、服务器和存储介质
US11232263B2 (en) Generating summary content using supervised sentential extractive summarization
CN110765763A (zh) 语音识别文本的纠错方法、装置、计算机设备和存储介质
CN111985229B (zh) 一种序列标注方法、装置及计算机设备
CN111274829B (zh) 一种利用跨语言信息的序列标注方法
CN110162771B (zh) 事件触发词的识别方法、装置、电子设备
WO2022174496A1 (zh) 基于生成模型的数据标注方法、装置、设备及存储介质
CN113704429A (zh) 基于半监督学习的意图识别方法、装置、设备及介质
RU2712101C2 (ru) Предсказание вероятности появления строки с использованием последовательности векторов
CN110633724A (zh) 意图识别模型动态训练方法、装置、设备和存储介质
CN111967253A (zh) 一种实体消歧方法、装置、计算机设备及存储介质
CN116245097A (zh) 训练实体识别模型的方法、实体识别方法及对应装置
CN112395880B (zh) 结构化三元组的纠错方法、装置、计算机设备及存储介质
CN109885702B (zh) 自然语言处理中的序列标注方法、装置、设备及存储介质
CN112559711A (zh) 一种同义文本提示方法、装置及电子设备
CN117077657A (zh) 一种无监督语法纠错方法、装置、终端及介质
CN116186223A (zh) 一种金融文本处理方法、装置、设备和存储介质
CN113486680B (zh) 文本翻译方法、装置、设备及存储介质
CN111090720B (zh) 一种热词的添加方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant