CN110991182B - 用于专业领域的分词方法、装置、存储介质及电子设备 - Google Patents

用于专业领域的分词方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN110991182B
CN110991182B CN201911222118.8A CN201911222118A CN110991182B CN 110991182 B CN110991182 B CN 110991182B CN 201911222118 A CN201911222118 A CN 201911222118A CN 110991182 B CN110991182 B CN 110991182B
Authority
CN
China
Prior art keywords
character
text
characters
segmented
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911222118.8A
Other languages
English (en)
Other versions
CN110991182A (zh
Inventor
张少阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN201911222118.8A priority Critical patent/CN110991182B/zh
Publication of CN110991182A publication Critical patent/CN110991182A/zh
Application granted granted Critical
Publication of CN110991182B publication Critical patent/CN110991182B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本公开涉及一种用于专业领域的分词方法、装置、存储介质及电子设备。方法包括:获取待分词文本中各第一字符的第一字向量;针对待分词文本中的每个第一字符,将第一字符的第一字向量以及多个第一邻近字符的第一字向量共同作为该第一字符的第一特征向量;将第一特征向量输入至预设的多任务学习模型中的、与第一字符对应的子模型中,得到该第一字符的切分预测值;根据多个切分预测值,对待分词文本进行分词。该方法综合考虑了各字符的独特性和关联性,可有效地提升分词的精度。另外,多任务学习模型比单任务学习,放松了部分训练数据与当前学习任务之间的关系,隐式增加了训练数据,有效解决专业领域数据量不足的问题,从而保证专业领域的分词精度。

Description

用于专业领域的分词方法、装置、存储介质及电子设备
技术领域
本公开涉及信息处理技术领域,具体地,涉及一种用于专业领域的分词方法、装置、存储介质及电子设备。
背景技术
在目前中文分词场景中,主要有两种方式:(1)基于完整语料库建立一个分词模型,该方式考虑的是上下文环境对所有字的全局综合作用,学习出字构词的一般性规律,但训练过程中未考虑各字的独特性;(2)针对每个字,分别建立字模型,从而能够有效区分每个特征对不同待切分字的影响,以学习字构词的特殊规律,但模型训练过程中未考虑不同字之间的关联性。因此,上述两种分词方式的分词精度不高。此外,专业领域(例如,医疗领域、生物领域等)数据具有专业性、隐私性等特性。其中,专业性导致其他领域数据训练的模型不能直接应用到该专业领域中,隐私性导致该专业领域可获得的数据较少,特别是带有标签的数据更是尤为缺乏。因此,如何有效提升专业领域的分词精度是进行后续文本分析的关键性问题。
发明内容
为了解决相关技术中存在的问题,本公开提供一种用于专业领域的分词方法、装置、存储介质及电子设备。
为了实现上述目的,根据本公开实施例的第一方面,提供一种用于专业领域的分词方法,所述方法包括:
获取待分词文本中各第一字符的第一字向量;
针对所述待分词文本中的每个第一字符,将该第一字符的第一字向量以及多个第一邻近字符的第一字向量共同作为该第一字符的第一特征向量,其中,所述多个第一邻近字符包括所述待分词文本中、与该第一字符之间间隔的字符数小于或等于第一预设阈值的字符,所述第一预设阈值大于1;
将所述第一特征向量输入至预设的多任务学习模型中的、与该第一字符对应的子模型中,得到该第一字符的切分预测值;
根据多个所述切分预测值,对所述待分词文本进行分词。
可选地,所述预设的多任务学习模型通过以下方式来构建:
获取各训练文本中各第二字符的第二字向量;
针对各所述训练文本中的每个第二字符,将该第二字符的第二字向量以及多个第二邻近字符的第二字向量共同作为该第二字符的第二特征向量,其中,所述多个第二邻近字符包括所述训练文本中、与该第二字符之间间隔的字符数小于或等于所述第一预设阈值的字符;
针对各所述训练文本中的每个第二字符,分别将该第二字符的第二特征向量作为训练样本输入至初始的多任务学习模型中的、与该第二字符对应的初始子模型中进行训练,得到所述预设的多任务学习模型。
可选地,所述多任务学习模型的目标函数基于混合范数的正则化约束,通过以下公式确定:
其中,L为字符集合包含的字符数量,所述字符集合由所述待分词文本中的各所述第一字符构成;wl为所述字符集合中、第l个第一字符对应的子模型的模型参数;n为所述待分词文本中包含第l个第一字符的数量;xli为n个第l个第一字符中的第i个字符的第一特征向量;yli为n个第l个字符中的第i个字符的切分预测值;为经验损失函数;W为所述多任务学习模型的参数矩阵,且W=[w1,...,wL];||W||1,1为各所述第一字符之间的独特性约束,且为所述参数矩阵W中所有元素的和;||W||2,1为各第一字符间的共性约束,且λ为正则项系数;/>为各所述第一字符之间的独特性约束||W||1,1的权重。
可选地,所述获取待分词文本中各第一字符的第一字向量,包括:
通过预设的BERT模型,获取待分词文本中各第一字符的第一字向量。
可选地,所述预设的BERT模型通过以下方式来构建:
基于通用领域的第一文本语料库,训练初始BERT模型,得到中间BERT模型;
基于所述专业领域的第二文本语料库,训练所述中间BERT模型,以得到所述预设的BERT模型。
可选地,所述根据多个所述切分预测值,对所述待分词文本进行分词,包括:
针对所述待分词文本中、除段落首字符外的每个第一字符,根据该第一字符的切分预测值与第二预设阈值的比较结果,确定是否将所述第一字符与其前一个字符切分开。
可选地,所述专业领域为医疗领域,所述待分词文本为医疗文本数据。
根据本公开实施例的第二方面,提供一种用于专业领域的分词装置,所述装置包括:
第一字向量获取模块,用于获取待分词文本中各第一字符的第一字向量;
第一特征向量确定模块,用于针对所述待分词文本中的每个第一字符,将所述第一字向量获取模块获取到的该第一字符的第一字向量以及多个第一邻近字符的第一字向量共同作为该第一字符的第一特征向量,其中,所述多个第一邻近字符包括所述待分词文本中、与该第一字符之间间隔的字符数小于或等于第一预设阈值的字符,所述第一预设阈值大于1;
切分预测值确定模块,用于将所述第一特征向量确定模块得到的所述第一特征向量输入至预设的多任务学习模型中的、与该第一字符对应的子模型中,得到该第一字符的切分预测值;
分词模块,用于根据所述切分预测值确定模块得到的多个所述切分预测值,对所述待分词文本进行分词。
根据本公开实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本公开第一方面提供的所述方法的步骤。
根据本公开实施例的第四方面,提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现本公开第一方面提供的所述方法的步骤。
在上述技术方案中,待分词文本中的每个第一字符在多任务学习模型中均有与其对应的子模型,输入至各第一字符对应的子模型中的第一特征向量同时具备第一字符以及与该第一字符邻近的其他字符的特征。因此,上述用于专业领域的分词方法在考虑各字符的独特性的同时又结合了字符之间的关联性,从而有效地提升了分词的精度。另外,多任务学习模型相比于单任务学习,放松了部分训练数据与当前学习任务之间的关系,也就是说,新增加的训练数据并不属于当前任务,而是属于另一个与当前任务相关且又不相同的任务,这样,隐式增加了训练数据,有效地解决了专业领域数据量不足的问题,从而保证了专业领域的分词精度。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是根据一示例性实施例示出的一种用于专业领域的分词方法的流程图。
图2是根据一示例性实施例示出的一种预设的BERT模型构建方法的流程图。
图3是根据一示例性实施例示出的一种预设的多任务学习模型构建方法的流程图。
图4是根据一示例性实施例示出的用于专业领域的分词装置的框图。
图5是根据一示例性实施例示出的一种预设的多任务学习模型构建装置的框图。
图6是根据一示例性实施例示出的一种预设的BERT模型构建装置的框图。
图7是根据一示例性实施例示出的一种电子设备的框图。
图8是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
字符本身带有语义信息,不同的字符其含义与作用不同,与上下文的相关性不同,造成每个字符的构词规律存在差异,因此,字符与字符之间存在着关联性,也存在着独特性。为了综合考虑字符之间的关联性和独特性,可以采用多任务学习模型来实现。其中,多任务学习模型的目标是通过利用不同任务之间的相关性来提升算法的学习性能。基于此,本公开采用多任务学习模型来进行分词,在能够区分出不同任务(字符)之间的独特性的同时,保留相关任务(字符)之间的关联性,并能有效避免由于专业领域(例如,医疗领域、生物领域等)数据量不足导致的分词精度低的问题。
具体来说,可以通过图1中所示的步骤101~步骤104来实现专业领域文本数据的分词操作。
在步骤101中,获取待分词文本中各第一字符的第一字向量。
在本公开中,上述专业领域可以为医疗领域、生物领域等,相应地,上述待分词文本可以分别为医疗文本数据、生物文本数据等。并且,上述第一字符可以包括中文字符、英文字符、标点符号等。
在步骤102中,针对待分词文本中的每个第一字符,将该第一字符的第一字向量以及多个第一邻近字符的第一字向量共同作为该第一字符的第一特征向量。
在本公开中,上述多个第一邻近字符可以包括待分词文本中、与该第一字符之间间隔的字符数小于或等于第一预设阈值的字符,并且,上述第一预设阈值大于1。
示例地,待分词文本为“我是中华人民共和国的公民。”,上述第一预设阈值为2。
针对第一字符“人”:在“我是中华人民共和国的公民。”中与该第一字符“人”之间间隔的字符数小于或等于2的字符包括“中”、“华”、“民”、“共”,则与第一字符“人”对应的多个第一邻近字符分别为“中”、“华”、“民”、“共”。这样,第一字符“人”的第一特征向量包括:“人”的第一字向量、“中”的第一字向量、“华”的第一字向量、“民”的第一字向量以及“共”的第一字向量。
针对第一字符“我”:在“我是中华人民共和国的公民。”中与该第一字符“我”之间间隔的字符数小于或等于2的字符包括“是”、“中”,则与第一字符“我”对应的多个第一邻近字符包括“是”、“中”。另外,为了使得各第一字符的第一特征向量的维度保持一致,可以在上述第一字符“我”的前面添加两个虚拟字符,并将该两个虚拟字符的第一字向量与上述“我”的第一字向量、“是”的第一字向量、“中”的第一字向量共同作为上述第一字符“我”的第一特征向量。其中,上述虚拟字符的第一字向量可以是用户设定的,也可以是默认的,在本公开中不作具体限定。
另外,上述“我是中华人民共和国的公民。”中存在两个第一字符“民”。其中,上述待分词文本中的位置靠前的第一字符“民”的第一特征向量包括:“民”的第一字向量、“华”的第一字向量、“人”的第一字向量、“共”的第一字向量以及“和”的第一字向量;上述待分词文本中的位置靠后的第一字符“民”的第一特征向量包括:“民”的第一字向量、“的”的第一字向量、“公”的第一字向量、“。”的第一字向量、一个虚拟字符的第一字向量。
相应地,上述第一字符“共”的第一特征向量包括:“共”的第一字向量、“人”的第一字向量、“民”的第一字向量、“和”的第一字向量以及“国”的第一字向量。
另外,可以通过将各第一字符的第一字向量与其对应的多个第一邻近字符的第一字向量拼接的方式来得到该第一字符对应的第一特征向量,其中,各第一字符对应的拼接顺序一致。
示例地,针对第一字符“人”,按照“人”的第一字向量、“中”的第一字向量、“华”的第一字向量、“民”的第一字向量、“共”的第一字向量的顺序依次拼接得到该第一字符“人”的第一特征向量;针对第一字符“共”,也按照“共”的第一字向量、“人”的第一字向量、“民”的第一字向量、“和”的第一字向量、“国”的第一字向量的顺序依次拼接得到该第一字符“共”的第一特征向量。
又示例地,针对第一字符“人”,按照“中”的第一字向量、“华”的第一字向量、“人”的第一字向量、“民”的第一字向量、“共”的第一字向量的顺序依次拼接得到该第一字符“人”的第一特征向量;针对第一字符“共”,也按照“人”的第一字向量、“民”的第一字向量、“共”的第一字向量、“和”的第一字向量、“国”的第一字向量的顺序依次拼接得到该第一字符“共”的第一特征向量。
需要说明的是,上述拼接顺序可以是默认的,也可以是用户设定的,在本公开中不作具体限定。
在步骤103中,将第一特征向量输入至预设的多任务学习模型中的、与该第一字符对应的子模型中,得到该第一字符的切分预测值。
在通过上述步骤102获取到上述待分词文本中各第一字符的第一特征向量后,可以针对每个第一字符,将该第一字符的第一特征向量输入至预设的多任务学习模型中的、与该第一字符对应的子模型中,以得到该第一字符的切分预测值。其中,该第一字符的切分预测值用于表示该第一字符与其前一个字符切分的概率值。另外,需要说明的是,若上述待分词文本中包括多个相同的第一字符,则可以将多个相同第一字符对应的第一特征向量分别输入至上述预设的多任务学习模型中的、与该第一字符对应的子模型中,得到该第一字符的切分预测值。
示例地,上述待分词文本“我是中华人民共和国的公民。”中存在两个第一字符“民”。这样,可以将上述待分词文本中的位置靠前的第一字符“民”的第一特征向量(包括:“民”的第一字向量、“华”的第一字向量、“人”的第一字向量、“共”的第一字向量以及“和”的第一字向量)输入至上述预设的多任务学习模型中的、与第一字符“民”对应的子模型中,得到该第一字符“民”的切分预测值;同时,将上述待分词文本中的位置靠后的第一字符“民”的第一特征向量(包括:“民”的第一字向量、“的”的第一字向量、“公”的第一字向量、“。”的第一字向量、一个虚拟字符的第一字向量)输入至上述预设的多任务学习模型中的、与第一字符“民”对应的子模型中,得到该第一字符“民”的切分预测值。其中,上述两个第一字符“民”在上述预设的多任务学习模型中对应的子模型为同一个(即,第一字符“民”对应的子模型),但由于它们对应的第一邻近字符不同,故二者对应的第一特征向量不同,这样,它们对应的切分预测值也可能是不同的。
在步骤104中,根据多个切分预测值,对待分词文本进行分词。
在上述技术方案中,待分词文本中的每个第一字符在多任务学习模型中均有与其对应的子模型,输入至各第一字符对应的子模型中的第一特征向量同时具备第一字符以及与该第一字符邻近的其他字符的特征。因此,上述用于专业领域的分词方法在考虑各字符的独特性的同时又综合了字符之间的关联性,从而有效地提升了分词的精度。另外,多任务学习模型相比于单任务学习,放松了部分训练数据与当前学习任务之间的关系,也就是说,新增加的训练数据并不属于当前任务,而是属于另一个与当前任务相关且又不相同的任务,这样,隐式增加了训练数据,有效地解决了专业领域数据量不足的问题,从而保证了专业领域的分词精度。
为了使本领域技术人员更加理解本发明实施例提供的技术方案,下面针对上述步骤101中的获取待分词文本中各第一字符的第一字向量进行详细说明。
在一种实施方式中,可以通过word2vec模型来获取待分词文本中各第一字符的第一字向量。由于通过word2vec模型获取待分词文本中各第一字符的第一字向量的具体方式属于本领域技术人员公知的,在本公开中不再详细描述。
在另一种实施方式中,可以通过预设的BERT(Bidirectional EncoderRepresentation from Transformers,Transformer的双向编码表示)模型,获取待分词文本中各第一字符的第一字向量。其中,上述预设的BERT模型实现了待分词文本到第一字向量的转化,增强了待分词文本对应的各第一字向量的语义信息。由于通过BERT模型获取待分词文本中各第一字符的第一字向量的具体方式属于本领域技术人员公知的,在本公开中不再详细描述。
上述预设的BERT模型可以通过图2中所示的步骤201和步骤202来构建。
在步骤201中,基于通用领域的第一文本语料库,训练初始BERT模型,得到中间BERT模型。
在本公开中,上述第一文本语料库比较容易获得,例如,维基百科、百度百科、谷歌十亿文本数据集等。
在步骤202中,基于专业领域的第二文本语料库,训练中间BERT模型,以得到预设的BERT模型。
在本公开中,由于字符本身具有语义信息,其语义信息对于分词的结果会有很大的影响。示例地,“男”、“女”,这两个字符通常用来指性别,在这种情况下,“男”与“女”具有一定的语义相关性,其用法相似,如“男人”和“女人”,“男孩”和“女孩”等。所以考虑语义相似性对于挖掘构词规律具有重要意义。对于数据相对其他领域较少、且不易获取到的专业领域(例如,医疗领域、生物领域等),可以先基于通用领域的第一文本语料库,训练初始BERT模型,得到中间BERT模型(即执行以上步骤201),再利用专业领域的第二文本语料库,训练中间BERT模型,以得到预设的BERT模型(即执行以上步骤202),也就是利用少量专业领域数据对中间BERT模型进行微调。这样,可以使得学习到的各第一字向量具有更丰富的含义(通用含义+专业领域相关的含义)。以具有丰富信息的各第一字向量构成的第一特征向量作为上述预设多任务学习模型的输入,从而可以提升专业领域的分词精度。
另外,上述预设的多任务学习模型可以通过图3中所示的步骤301~步骤303来构建。
在步骤301中,获取各训练文本中各第二字符的第二字向量。
在本公开中,上述训练文本可以为通用领域的文本数据,也可以为上述专业领域的文本数据。优选地,上述训练文本为上述专业领域的文本数据,这样,相对于使用通用领域的文本数据训练得到的多任务学习模型能够学习出更加符合上述专业领域的字构词的规律,从而使得分词精度更高。并且,可以通过与上述步骤101获取待分词文本中各第一字符的第一字向量相同的方式来获取各训练文本中各第二字符的第二字向量,这里不再赘述。
在步骤302中,针对各训练文本中的每个第二字符,将该第二字符的第二字向量以及多个第二邻近字符的第二字向量共同作为该第二字符的第二特征向量。
其中,上述多个第二邻近字符包括训练文本中、与该第二字符之间间隔的字符数小于或等于上述第一预设阈值的字符。
在步骤303中,针对各训练文本中的每个第二字符,分别将该第二字符的第二特征向量作为训练样本输入至初始的多任务学习模型中的、与该第二字符对应的初始子模型中进行训练,得到预设的多任务学习模型。
在本公开中,在通过上述步骤302获取到各训练文本中的每个第二字符的第二字向量后,可以针对各训练文本中的每个第二字符,分别将该第二字符的第二特征向量作为训练样本输入至初始的多任务学习模型中的、与该第二字符对应的初始子模型中进行训练,以调整相应模型参数,从而得到上述预设的多任务学习模型。
另外,在一种实施方式中,上述预设的多任务学习模型的目标函数可以为:
其中,L为字符集合包含的字符数量,所述字符集合由所述待分词文本中的各所述第一字符构成;wl为所述字符集合中、第l个第一字符对应的子模型的模型参数;n为所述待分词文本中包含第l个第一字符的数量;xli为n个第l个第一字符中的第i个字符的第一特征向量;yli为n个第l个字符中的第i个字符的切分预测值;为经验损失函数;W为所述多任务学习模型的参数矩阵,且W=[w1,...,wL];||W||1,1为各所述第一字符之间的独特性约束,且为所述参数矩阵W中所有元素的和;λ为正则项系数,且0<λ≤1。
在另一种实施方式中,上述预设的多任务学习模型的目标函数可以为:
其中,||W||2,1为各第一字符间的共性约束,且
将分词任务拆分为多个子任务,由于子任务之间存在着复杂的关系,直接将上述多任务学习模型应用到当前任务时往往并不能显著地提升模分词精度,因为它们对于子任务间关系的设定都相对简单。有一些第一字符之间是高度相关的,还有一些第一字符之间的差异性相对较大的,基于此,可以将子任务之间的关系通过关联性和独特性的形式出现,而非像上述等式(1)那样只区分第一字符之间的独特性,也不会像上述等式(2)那样只保留第一字符之间的关联性。为了能够同时应对基于每个第一字符进行建模既保留关联性又区分独特性,在又一种实施方式中,上述预设的多任务学习模型的目标函数可以基于混合范数的正则化约束来确定。示例地,可以通过以下等式(3)来确定:
其中,为各所述第一字符之间的独特性约束||W||1,1的权重,它可以平衡独特性或关联性对正则化项的作用,并且,/>
下面针对上述步骤104中的根据多个切分预测值,对待分词文本进行分词进行详细说明。在本公开中,由于上述第一字符的切分预测值用于表征该第一字符与其前一个字符切分的概率值,而上述待分词文本中的各段落的首字符(即各段落的第一个字符)均不存在前一个字符,故不需要考虑其是否进行切分。也就是说,可以针对待分词文本中、除段落首字符外的每个第一字符,根据该第一字符的切分预测值与第二预设阈值的比较结果,确定是否将该第一字符与其前一个字符切分开。其中,上述第二预设阈值可以大于0、且小于1。
在一种实施方式中,当第一字符的切分预测值大于上述第二预设阈值时,可以将该第一字符与其前一个字符切分开;而当第一字符的切分预测值小于上述第二预设阈值时,可以将该第一字符与其前一个字符不进行切分。
示例地,待分词文本为“心跳为65次/分”,上述第二预设阈值为0.6。第一字符“跳”的切分预测值为0.42,第一字符“为”的切分预测值为0.87,第一字符“6”的切分预测值为0.65,第一字符“5”的切分预测值为0.35,第一字符“次”的切分预测值为“0.76”,第一字符“/”的切分预测值为0.57,第一字符“分”的切分预测值为0.43。由于第一字符“跳”的切分预测值小于上述第二预设阈值,故,第一字符“跳”与其前一个字符“心”不进行切分;由于第一字符“为”的切分预测值大于上述第二预设阈值,故,第一字符“为”与其前一个字符“跳”进行切分;由于第一字符“6”的切分预测值大于上述第二预设阈值,故,第一字符“6”与其前一个字符“为”进行切分;由于第一字符“5”的切分预测值小于上述第二预设阈值,故,第一字符“5”与其前一个字符“6”不进行切分;由于第一字符“次”的切分预测值大于上述第二预设阈值,故,第一字符“次”与其前一个字符“5”进行切分;由于第一字符“/”的切分预测值小于上述第二预设阈值,故,第一字符“/”与其前一个字符“次”不进行切分;由于第一字符“分”的切分预测值小于上述第二预设阈值,故,第一字符“分”与其前一个字符“/”不进行切分。由此,可以得到上述待分词文本“心跳为65次/分”对应的分词结果:心跳、为、65、次/分。而现有的分词方法由于未考虑第一字符之间的关联性,大多将上述“次/分”切分为“次”、“/”、“分”,分词效果不理想。
又示例地,通过上述用于专业领域的分词方法进行分词,对“黄染”、“反跳痛”、“骨科手术”、“放松疗法”等多词粘连的词汇不进行切分,而通过现有的分词方法大多切分成最小单元,即,将“黄染”拆分为“黄”、“染”,将“反跳痛”拆分为“反”、“跳”、“痛”,将“骨科手术”拆分为“骨科”、“手术”,将“放松疗法”拆分为“放松”、“疗法”,分词效果不理想。
在另一种实施方式中,当第一字符的切分预测值小于或等于上述第二预设阈值时,可以将该第一字符与其前一个字符切分开;而当第一字符的切分预测值大于上述第二预设阈值时,可以将该第一字符与其前一个字符不进行切分。
在对分词文本进行分词时,采用上述两种实施方式中的何种方式,在上述预设的多任务学习模型训练时已经设定好。例如,若在上述预设的多任务学习模型训练时,设定切分预测值越大,相应第一字符与其前一个字符切分的概率越大,则后续采用上述第一种实施方式进行分词;若在上述预设的多任务学习模型训练时,设定切分预测值越小,相应第一字符与其前一个字符切分的概率越大,则后续采用上述第二种实施方式进行分词。
另外,需要说明的是,上述第一预设阈值、第二预设阈值均可以是用户设定的值,也可以是默认的经验值,在本公开中均不作具体限定。
图4是根据一示例性实施例示出的用于专业领域的分词装置的框图。参照图4,该装置400可以包括:第一字向量获取模块401,用于获取待分词文本中各第一字符的第一字向量;第一特征向量确定模块402,用于针对所述待分词文本中的每个第一字符,将所述第一字向量获取模块401获取到的该第一字符的第一字向量以及多个第一邻近字符的第一字向量共同作为该第一字符的第一特征向量,其中,所述多个第一邻近字符包括所述待分词文本中、与该第一字符之间间隔的字符数小于或等于第一预设阈值的字符,所述第一预设阈值大于1;切分预测值确定模块403,用于将所述第一特征向量确定模块402得到的所述第一特征向量输入至预设的多任务学习模型中的、与该第一字符对应的子模型中,得到该第一字符的切分预测值;分词模块404,用于根据所述切分预测值确定模块403得到的多个所述切分预测值,对所述待分词文本进行分词。
图5是根据一示例性实施例示出的一种预设的多任务学习模型构建装置的框图。参照图5,该装置500可以包括:第二字向量获取模块501,用于获取各训练文本中各第二字符的第二字向量;第二特征向量确定模块502,用于针对各所述训练文本中的每个第二字符,将所述第二字向量获取模块501获取到的该第二字符的第二字向量以及多个第二邻近字符的第二字向量共同作为该第二字符的第二特征向量,其中,所述多个第二邻近字符包括所述训练文本中、与该第二字符之间间隔的字符数小于或等于所述第一预设阈值的字符;第一训练模块503,用于针对各所述训练文本中的每个第二字符,分别将所述第二特征向量确定模块502得到的该第二字符的第二特征向量作为训练样本输入至初始的多任务学习模型中的、与该第二字符对应的初始子模型中进行训练,得到所述预设的多任务学习模型。
可选地,所述多任务学习模型的目标函数基于混合范数的正则化约束,通过以下公式确定:
其中,L为字符集合包含的字符数量,所述字符集合由所述待分词文本中的各所述第一字符构成;wl为所述字符集合中、第l个第一字符对应的子模型的模型参数;n为所述待分词文本中包含第l个第一字符的数量;xli为n个第l个第一字符中的第i个字符的第一特征向量;yli为n个第l个字符中的第i个字符的切分预测值;为经验损失函数;W为所述多任务学习模型的参数矩阵,且W=[w1,...,wL];||W||1,1为各所述第一字符之间的独特性约束,且为所述参数矩阵W中所有元素的和;||W||2,1为各第一字符间的共性约束,且λ为正则项系数;/>为各所述第一字符之间的独特性约束||W||1,1的权重。
可选地,所述第一字向量获取模块401用于通过预设的BERT模型,获取待分词文本中各第一字符的第一字向量。
图6是根据一示例性实施例示出的一种预设的BERT模型构建装置的框图。参照图6,该装置600可以包括:第二训练模块601,用于基于通用领域的第一文本语料库,训练初始BERT模型,得到中间BERT模型;第三训练模块602,用于基于所述专业领域的第二文本语料库,训练所述第二训练模块601得到的所述中间BERT模型,以得到所述预设的BERT模型。
可选地,所述分词模块404用于针对所述待分词文本中、除段落首字符外的每个第一字符,根据该第一字符的切分预测值与第二预设阈值的比较结果,确定是否将所述第一字符与其前一个字符切分开。
可选地,所述专业领域为医疗领域,所述待分词文本为医疗文本数据。
另外,需要说明的是,上述预设的多任务学习模型构建装置500可以与上述用于专业领域的分词装置400相互独立,也可以集成于该用于专业领域的分词装置400内,在本公开中不作具体限定。并且,上述预设的BERT模型构建装置600可以与上述用于专业领域的分词装置400相互独立,也可以集成于该用于专业领域的分词装置400内,在本公开中页不作具体限定。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本公开还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本公开提供的上述用于专业领域的分词方法的步骤。
图7是根据一示例性实施例示出的一种电子设备700的框图。如图7所示,该电子设备700可以包括:处理器701,存储器702。该电子设备700还可以包括多媒体组件703,输入/输出(I/O)接口704,以及通信组件705中的一者或多者。
其中,处理器701用于控制该电子设备700的整体操作,以完成上述的用于专业领域的分词方法中的全部或部分步骤。存储器702用于存储各种类型的数据以支持在该电子设备700的操作,这些数据例如可以包括用于在该电子设备700上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件703可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器702或通过通信组件705发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口704为处理器701和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件705用于该电子设备700与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G、4G、NB-IOT、eMTC、或其他5G等等,或它们中的一种或几种的组合,在此不做限定。因此相应的该通信组件705可以包括:Wi-Fi模块,蓝牙模块,NFC模块等等。
在一示例性实施例中,电子设备700可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的用于专业领域的分词方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的用于专业领域的分词方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器702,上述程序指令可由电子设备700的处理器701执行以完成上述的用于专业领域的分词方法。
图8是根据一示例性实施例示出的一种电子设备800的框图。例如,电子设备800可以被提供为一服务器。参照图8,电子设备800包括处理器822,其数量可以为一个或多个,以及存储器832,用于存储可由处理器822执行的计算机程序。存储器832中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理器822可以被配置为执行该计算机程序,以执行上述的用于专业领域的分词方法。
另外,电子设备800还可以包括电源组件826和通信组件850,该电源组件826可以被配置为执行电子设备800的电源管理,该通信组件850可以被配置为实现电子设备800的通信,例如,有线或无线通信。此外,该电子设备800还可以包括输入/输出(I/O)接口858。电子设备800可以操作基于存储在存储器832的操作系统,例如Windows ServerTM,Mac OSXTM,UnixTM,LinuxTM等等。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的用于专业领域的分词方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器832,上述程序指令可由电子设备800的处理器822执行以完成上述的用于专业领域的分词方法。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的用于专业领域的分词方法的代码部分。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

Claims (10)

1.一种用于专业领域的分词方法,其特征在于,所述方法包括:
获取待分词文本中各第一字符的第一字向量;
针对所述待分词文本中的每个第一字符,将该第一字符的第一字向量以及多个第一邻近字符的第一字向量共同作为该第一字符的第一特征向量,其中,所述多个第一邻近字符包括所述待分词文本中、与该第一字符之间间隔的字符数小于或等于第一预设阈值的字符,所述第一预设阈值大于1;
将所述第一特征向量输入至预设的多任务学习模型中的、与该第一字符对应的子模型中,得到该第一字符的切分预测值,其中,该第一字符的切分预测值用于表示该第一字符与其前一个字符切分的概率值;
根据多个所述切分预测值,对所述待分词文本进行分词。
2.根据权利要求1所述的方法,其特征在于,所述预设的多任务学习模型通过以下方式来构建:
获取各训练文本中各第二字符的第二字向量;
针对各所述训练文本中的每个第二字符,将该第二字符的第二字向量以及多个第二邻近字符的第二字向量共同作为该第二字符的第二特征向量,其中,所述多个第二邻近字符包括所述训练文本中、与该第二字符之间间隔的字符数小于或等于所述第一预设阈值的字符;
针对各所述训练文本中的每个第二字符,分别将该第二字符的第二特征向量作为训练样本输入至初始的多任务学习模型中的、与该第二字符对应的初始子模型中进行训练,得到所述预设的多任务学习模型。
3.根据权利要求1所述的方法,其特征在于,所述多任务学习模型的目标函数基于混合范数的正则化约束,通过以下公式确定:
其中,L为字符集合包含的字符数量,所述字符集合由所述待分词文本中的各所述第一字符构成;wl为所述字符集合中、第l个第一字符对应的子模型的模型参数;n为所述待分词文本中包含第l个第一字符的数量;xli为n个第l个第一字符中的第i个字符的第一特征向量;yli为n个第l个字符中的第i个字符的切分预测值;为经验损失函数;W为所述多任务学习模型的参数矩阵,且W=[w1,...,wL];||W||1,1为各所述第一字符之间的独特性约束,且为所述参数矩阵W中所有元素的和;||W||2,1为各第一字符间的共性约束,且λ为正则项系数;/>为各所述第一字符之间的独特性约束||W||1,1的权重。
4.根据权利要求1所述的方法,其特征在于,所述获取待分词文本中各第一字符的第一字向量,包括:
通过预设的BERT模型,获取待分词文本中各第一字符的第一字向量。
5.根据权利要求4所述的方法,其特征在于,所述预设的BERT模型通过以下方式来构建:
基于通用领域的第一文本语料库,训练初始BERT模型,得到中间BERT模型;
基于所述专业领域的第二文本语料库,训练所述中间BERT模型,以得到所述预设的BERT模型。
6.根据权利要求1所述的方法,其特征在于,所述根据多个所述切分预测值,对所述待分词文本进行分词,包括:
针对所述待分词文本中、除段落首字符外的每个第一字符,根据该第一字符的切分预测值与第二预设阈值的比较结果,确定是否将所述第一字符与其前一个字符切分开。
7.根据权利要求1-6中任一项所述的方法,其特征在于,所述专业领域为医疗领域,所述待分词文本为医疗文本数据。
8.一种用于专业领域的分词装置,其特征在于,所述装置包括:
第一字向量获取模块,用于获取待分词文本中各第一字符的第一字向量;
第一特征向量确定模块,用于针对所述待分词文本中的每个第一字符,将所述第一字向量获取模块获取到的该第一字符的第一字向量以及多个第一邻近字符的第一字向量共同作为该第一字符的第一特征向量,其中,所述多个第一邻近字符包括所述待分词文本中、与该第一字符之间间隔的字符数小于或等于第一预设阈值的字符,所述第一预设阈值大于1;
切分预测值确定模块,用于将所述第一特征向量确定模块得到的所述第一特征向量输入至预设的多任务学习模型中的、与该第一字符对应的子模型中,得到该第一字符的切分预测值,其中,该第一字符的切分预测值用于表示该第一字符与其前一个字符切分的概率值;
分词模块,用于根据所述切分预测值确定模块得到的多个所述切分预测值,对所述待分词文本进行分词。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。
10.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-7中任一项所述方法的步骤。
CN201911222118.8A 2019-12-03 2019-12-03 用于专业领域的分词方法、装置、存储介质及电子设备 Active CN110991182B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911222118.8A CN110991182B (zh) 2019-12-03 2019-12-03 用于专业领域的分词方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911222118.8A CN110991182B (zh) 2019-12-03 2019-12-03 用于专业领域的分词方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN110991182A CN110991182A (zh) 2020-04-10
CN110991182B true CN110991182B (zh) 2024-01-19

Family

ID=70089838

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911222118.8A Active CN110991182B (zh) 2019-12-03 2019-12-03 用于专业领域的分词方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN110991182B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112949298B (zh) * 2021-02-26 2022-10-04 维沃移动通信有限公司 分词方法、装置、电子设备和可读存储介质
CN115146630B (zh) * 2022-06-08 2023-05-30 平安科技(深圳)有限公司 基于专业领域知识的分词方法、装置、设备及存储介质
CN117057347B (zh) * 2023-10-13 2024-01-19 北京睿企信息科技有限公司 一种分词方法、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108205524A (zh) * 2016-12-20 2018-06-26 北京京东尚科信息技术有限公司 文本数据处理方法和装置
CN108334492A (zh) * 2017-12-05 2018-07-27 腾讯科技(深圳)有限公司 文本分词、即时消息处理方法和装置
CN108829681A (zh) * 2018-06-28 2018-11-16 北京神州泰岳软件股份有限公司 一种命名实体提取方法及装置
CN109492217A (zh) * 2018-10-11 2019-03-19 平安科技(深圳)有限公司 一种基于机器学习的分词方法及终端设备
CN109767814A (zh) * 2019-01-17 2019-05-17 中国科学院新疆理化技术研究所 一种基于GloVe模型的氨基酸全局特征向量表示方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614494B (zh) * 2018-12-29 2021-10-26 东软集团股份有限公司 一种文本分类方法及相关装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108205524A (zh) * 2016-12-20 2018-06-26 北京京东尚科信息技术有限公司 文本数据处理方法和装置
CN108334492A (zh) * 2017-12-05 2018-07-27 腾讯科技(深圳)有限公司 文本分词、即时消息处理方法和装置
CN108829681A (zh) * 2018-06-28 2018-11-16 北京神州泰岳软件股份有限公司 一种命名实体提取方法及装置
CN109492217A (zh) * 2018-10-11 2019-03-19 平安科技(深圳)有限公司 一种基于机器学习的分词方法及终端设备
CN109767814A (zh) * 2019-01-17 2019-05-17 中国科学院新疆理化技术研究所 一种基于GloVe模型的氨基酸全局特征向量表示方法

Also Published As

Publication number Publication date
CN110991182A (zh) 2020-04-10

Similar Documents

Publication Publication Date Title
CN110991182B (zh) 用于专业领域的分词方法、装置、存储介质及电子设备
US10617959B2 (en) Method and system for training a chatbot
US20180101770A1 (en) Method and system of generative model learning, and program product
KR20200019740A (ko) 번역 방법, 타깃 정보 결정 방법, 관련 장치 및 저장 매체
CN111566646B (zh) 用于对数据进行混淆和解码的电子装置以及用于控制该电子装置的方法
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN111145732B (zh) 多任务语音识别后的处理方法及系统
WO2023201963A1 (zh) 图像理解方法、装置、设备及介质
CN110991165A (zh) 文本中人物关系提取方法及装置、计算机设备和存储介质
CN109815322B (zh) 应答的方法、装置、存储介质及电子设备
CN110209803B (zh) 故事生成方法、装置、计算机设备及存储介质
CN111435592B (zh) 一种语音识别方法、装置及终端设备
CN111984821A (zh) 确定视频动态封面的方法、装置、存储介质及电子设备
CN116303962B (zh) 对话生成方法、深度学习模型的训练方法、装置和设备
CN112331261A (zh) 药物预测方法及模型的训练方法、装置、电子设备及介质
US11216497B2 (en) Method for processing language information and electronic device therefor
CN112036174B (zh) 一种标点标注方法及装置
CN110349577B (zh) 人机交互方法、装置、存储介质及电子设备
JP6449368B2 (ja) 会話提供装置、会話提供方法及びプログラム
CN111931503B (zh) 信息抽取方法及装置、设备、计算机可读存储介质
US20150363372A1 (en) Method and device for updating user data
WO2024098763A1 (zh) 文本操作图互检方法及模型训练方法、装置、设备、介质
CN115712739B (zh) 舞蹈动作生成方法、计算机设备及存储介质
CN112330408A (zh) 一种产品推荐方法、装置及电子设备
CN117236340A (zh) 问答方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant