CN115630643A - 语言模型的训练方法、装置、电子设备及存储介质 - Google Patents
语言模型的训练方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115630643A CN115630643A CN202211298201.5A CN202211298201A CN115630643A CN 115630643 A CN115630643 A CN 115630643A CN 202211298201 A CN202211298201 A CN 202211298201A CN 115630643 A CN115630643 A CN 115630643A
- Authority
- CN
- China
- Prior art keywords
- sample
- sentence
- sentences
- participles
- initial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种语言模型的训练方法、装置、电子设备及存储介质。方法包括:对针对目标场景的样本句子进行分词处理,得到多个样本分词;获取对应每个样本分词的相似分词;根据多个样本分词以及多个样本分词各自对应的相似分词,得到扩展样本句子;通过扩展样本句子以及样本句子对初始语言模型进行训练,得到针对目标场景的语言模型。在本申请中,通过对样本句子得到扩展样本句子,并将扩展样本句子以及样本句子作为训练样本,对初始语言模型进行训练,得到语言模型,训练样本加入了样本句子对应的了扩展样本句子,使得训练样本的样本数量大大提高,从而提高了训练获得的语言模型的识别效果。
Description
技术领域
本申请涉及音频处理技术领域,更具体地,涉及一种语言模型的训练方法、装置、电子设备及存储介质。
背景技术
语音识别技术可以运用于各种不同的领域中,针对专业性或者识别内容相对单一的场景,可以通过该场景下的训练样本对初始语言模型进行训练,得到针对该场景的语言模型,相较于各个场景通用的语言模型,该语言模型对该场景下的句子的识别准确度较高。
然而,通过特定场景下的训练样本训练获得的该特定场景对应的语言模型的识别效果依旧较差。
发明内容
有鉴于此,本申请实施例提出了一种语言模型的训练方法、装置、电子设备及存储介质。
第一方面,本申请实施例提供了一种语言模型的训练方法,方法包括:对针对目标场景的样本句子进行分词处理,得到多个样本分词;获取对应每个样本分词的相似分词;根据多个样本分词以及多个样本分词各自对应的相似分词,得到扩展样本句子;通过扩展样本句子以及样本句子对初始语言模型进行训练,得到针对目标场景的语言模型。
第二方面,本申请实施例提供了一种语言模型的训练模型的训练装置,装置包括:分词模块,用于对针对目标场景的样本句子进行分词处理,得到多个样本分词;获取模块,用于获取对应每个样本分词的相似分词;句子获得模块,用于根据多个样本分词以及多个样本分词各自对应的相似分词,得到扩展样本句子;模型训练模块,用于通过扩展样本句子以及样本句子对初始语言模型进行训练,得到针对目标场景的语言模型。
第三方面,本申请实施例提供了一种电子设备,包括处理器以及存储器;一个或多个程序被存储在存储器中并被配置为由处理器执行以实现上述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质中存储有程序代码,其中,在程序代码被处理器运行时执行上述的方法。
第五方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该电子设备执行上述的方法。
本申请实施例提供的一种语言模型的训练方法、装置、电子设备及存储介质,通过对样本句子得到扩展样本句子,并将扩展样本句子以及样本句子作为训练样本,对初始语言模型进行训练,得到语言模型,训练样本加入了样本句子对应的了扩展样本句子,使得训练样本的样本数量大大提高,从而提高了训练获得的语言模型的识别效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以
图1示出了本申请一个实施例提出的一种语言模型的训练方法的流程图;
图2示出了本申请又一个实施例提出的一种语言模型的训练方法的流程图;
图3示出了本申请再一个实施例提出的一种语言模型的训练方法的流程图;
图4示出了本申请一个实施例提出的一种语言模型的训练装置的框图;
图5示出了本申请一个实施例提出的一种电子设备的结构框图;
图6示出了本申请实施例提供的一种计算机可读存储介质的结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。根据本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在以下的描述中,所涉及的术语“第一\第二”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
请参阅图1,图1示出了本申请一个实施例提出的一种语言模型的训练方法的流程图,方法可以用于电子设备,方法包括:
S110、对针对目标场景的样本句子进行分词处理,得到多个样本分词。
在本实施例中,目标场景可以是任意一种专业性或单一性的场景,例如目标场景可以是银行场景、电影院场景、购物场景以及法律场景等。针对目标场景的样本句子可以是指从目标场景的语音沟通记录或者文字沟通记录中获取的句子。
然而,通过目标场景的语音沟通记录进行识别时,获得识别后的句子并不能直接作为训练样本,例如“哦知道”、“好的”或“非常高兴为您服务,请问还有什么可以帮您的”这类短句,实际上并没有太多的优化意义并且这类短句出现的概率非常高。若将语音沟通记录中这种无关紧要的文本都作为样本句子,不仅会导致样本句子的稀疏程度增加,并且会增大训练时所需要的成本。因此,需要选择语音沟通记录实际表达的有效内容。
作为一种实施方式,S110之前,方法还包括:获取针对目标场景的多个初始样本句子;从多个初始样本句子中获取句长处于目标句长区间的句子,作为样本句子。
在本实施例中多个初始样本句子可以是指对目标场景的语音沟通记录进行文字转换,获得的全部句子,例如,语音沟通记录包括100个句子,该100个句子包括“哦,知道”、“好的”或“非常高兴为您服务,请问还有什么可以帮您的”这类短句,该100个句子也包括这段语音沟通记录实际表达的主要内容所对应的句子。
句长可以是指句子包括的分词的数量,目标句长区间可以时用户基于需求和实际场景确定的,不同的场景,对应的目标句长区间可能不同,例如购物场景的目标句长区间为[4,10]。将多个初始样本句子中句长处于目标句长区间的句子,作为样本句子。
作为又一种实施方式,S110之前,方法还包括:获取针对目标场景的多个初始样本句子;统计每个初始样本句子的句子频率;从多个初始样本句子中获取句子频率处于目标句频区间的句子,作为样本句子。
目标句频区间可以是用户基于需求设定的句子频率区间,以通过目标句频区间去除句子频率较高和句子频率较低的句子,将多个初始样本句子中获取句子频率处于目标句频区间的句子,作为样本句子。
作为再一种实施方式,S110之前,方法还包括:获取针对目标场景的多个初始样本句子;对每个初始样本句子进行句子结构分析,得到每个初始样本句子的结构分析结果;从多个初始样本句子中获取结构分析结果为句子结构完整的句子,作为样本句子。
可以通过CYK算法对每个初始样本句子进行句子结构分析,得到结构分析结果,每个初始样本句子的结构分析结果可以是句子结构完整和句子结构不完整中的一个。
需要说明的是,可以在多个初始句子中筛选句长处于目标句长区间且句子频率处于目标句频区间的句子,作为样本句子;或,在多个初始句子中筛选句长处于目标句长区间且结构分析结果为句子结构完整的句子,作为样本句子;或在多个初始句子中筛选句子频率处于目标句频区间的句子以及结构分析结果为句子结构完整的句子,作为样本句子;或,在多个初始句子中筛选句长处于目标句长区间、句子频率处于目标句频区间的句子以及结构分析结果为句子结构完整的句子,作为样本句子。
得到样本句子之后,对样本句子可以包括多个样本句子,针对每个样本句子,对该样本句子进行分词,得到该样本句子对应的多个样本分词。
其中,分词处理可以是指将样本句子划分为单个字符或词,例如,样本句子为英文单句,样本句子对应的一个样本分词为一个单词,又如,样本句子为中文单句,样本句子对应的一个样本分词为一个字或词。
S120、获取对应每个样本分词的相似分词。
针对每个样本句子的每个样本分词,获取与该样本分词的词义相近的分词作为相似分词,一个样本分词对应的相似分词可以包括至少一个分词。
例如,样本句子A包括样本分词a1、a2以及a3,样本分词a1对应3个相似分词、样本分词a2对应3个相似分词以及样本分词a3对应1个相似分词。
S130、根据多个样本分词以及多个样本分词各自对应的相似分词,得到扩展样本句子。
可以在每个样本分词及其对应的相似分词中确定一个词,并与样本句子中的其他分词进行拼接,得到扩展样本句子。
例如,样本句子对应3个样本分词b1、b2以及b3,且样本句子中样本分词的顺序为b1b2b3,样本分词b1对应3个相似分词,样本分词b2对应2个相似分词,样本分词b3对应2个相似分词,从样本分词b1对应3个相似分词中选个相似分词b4,替换原样本句子中的b1,得到新的句子,作为一个扩展样本句子,同理,可以遍历全部的样本分词b1、b2以及b3各自的相似分词,可以得到3×3×2=18个扩展样本句子。
作为一种实施方式,S130可以包括:在样本句子中确定至少一个样本分词作为目标分词;将目标分词替换为与目标分词对应的相似分词,得到对应样本句子的扩展样本句子。
例如,对于样本句子D对应3个样本分词d1、d2以及d3,样本分词的顺序为d1d2d3,样本分词d1对应2个相似分词、样本分词d2对应2个相似分词以及样本分词d3对应2个相似分词。可以确定样本分词d1为目标分词,并将样本分词d1对应的2个相似分词d4和d5分别替换d1,得到两个扩展样本句子d4d2d3以及d5d2d3;也可以确定样本分词d1和d3为目标分词,并将样本分词d1对应的2个相似分词d4和d5分别替换d1,同时根据样本分词d3对应的2个相似分词d6和d7分别替换d3,得到四个样本句子d4d2d6、d5d2d5、d4d2d7以及d5d2d7。
S140、通过扩展样本句子以及样本句子对初始语言模型进行训练,得到针对目标场景的语言模型。
得到扩展样本句子之后,将扩展样本句子和样本句子作为训练样本,对初始语言模型进行训练,直到迭代次数达到预设次数(例如设置的1000次)或模型收敛,得到针对目标场景的语言模型。该语言模型适用于目标场景,对目标场景的句子分析能力较强。
通常针对目标场景可以作为训练样本的句子较少,通过本实施例的方法,可以获得大量的扩展样本句子,从而使得训练初始语言模型的训练样本包括大量的句子,提高了训练样本的容量。
在本实施例中,通过对样本句子得到扩展样本句子,并将扩展样本句子以及样本句子作为训练样本,对初始语言模型进行训练,得到语言模型,训练样本加入了样本句子对应的了扩展样本句子,使得训练样本的样本数量大大提高,从而提高了训练获得的语言模型的识别效果。
请参阅图2,图2示出了本申请又一个实施例提出的一种语言模型的训练方法的流程图,方法可以用于电子设备,方法包括:
S210、对针对目标场景的样本句子进行分词处理,得到多个样本分词。
其中,S210的描述参照上文S110的描述,此处不再赘述。
S220、获取对应每个样本分词的多个初始相似分词;确定每个初始相似分词以及与该初始相似分词对应的样本分词之间的分词相似度;按照分词相似度由高到低在每个样本分词对应的多个初始相似分词中确定目标数量的分词,作为每个样本分词对应的相似分词。
针对每个样本分词,可以从预置的词典或者网络引擎中获取对应该样本分词的多个初始相似分词,并可以通过Word2vector模型确定每个初始相似分词以及与该初始相似分词对应的样本分词的分词相似度。
例如,样本分词c1对应5个初始相似分词c2、c3、c4、c5以及c6,通过Word2vector模型确定样本分词c1与c2的分词相似度、c1与c3的分词相似度、c1与c4的分词相似度、c1与c5的分词相似度以及c1与c6的分词相似度。
得到每个样本分词的各个初始相似分词的分词相似度之后,在每个样本分词对应的多个初始相似分词中确定目标数量的分词,作为每个样本分词对应的相似分词,其中,目标数量可以是用户基于需求设定的,例如3个。
例如,样本分词c1对应5个初始相似分词c2、c3、c4、c5以及c6,通过Word2vector模型确定样本分词c1与c2的分词相似度、c1与c3的分词相似度、c1与c4的分词相似度、c1与c5的分词相似度以及c1与c6的分词相似度,其中,目标数量为3,c1与c2的分词相似度最高,c1与c4的分词相似度次之,c1与c5的分词相似度第三高,此时,确定初始相似分词c2、c4以及c5作为样本分词c1对应的相似分词。
S230、根据多个样本分词以及多个样本分词各自对应的相似分词,得到扩展样本句子。
S240、通过扩展样本句子以及样本句子对初始语言模型进行训练,得到针对目标场景的语言模型。
其中,S230-S240的描述参照上文S130-S140的描述,此处不再赘述。
在本实施例中,确定的相似分词为分词相似度最高的多个分词,相似分词与样本分词的意思极为相近,得到的扩展样本句子可以与原样本句子的句意更加相近,使得扩展样本句子准确率较高,更加适用于目标场景,从而提高了训练样本的准确度,进而提高了训练获得的语言模型的精度。
请参阅图3,图3示出了本申请再一个实施例提出的一种语言模型的训练方法的流程图,方法可以用于电子设备,方法包括:
S310、对针对目标场景的样本句子进行分词处理,得到多个样本分词。
S320、获取对应每个样本分词的相似分词。
S330、根据多个样本分词以及多个样本分词各自对应的相似分词,得到多个扩展句子。
可选地,可以在样本句子中确定至少一个样本分词作为新的目标分词;将新的目标分词替换为与目标分词对应的相似分词,得到对应样本句子的扩展句子。也即,可以按照S230的方式得到扩展样本句子作为扩展句子。
S340、确定每个扩展句子的通顺度;在多个扩展句子中确定通顺度达到通顺度阈值的句子,作为扩展样本句子。
其中,通顺度阈值可以是基于需求和场景确定的,本申请不做限定。可以是确定每个扩展句子的困惑度得分,将困惑度得分的倒数作为扩展句子的通顺度。确定每个扩展句子的困惑度得分的方法参照如下公式:
其中,PPL是指扩展句子的困惑度得分,i是指扩展句子中第i个分词,N是指扩展句子的长度(分词的数量),p(ωi|ω1·ω2·…·ωi-1)是指基于前(i-1)个分词计算出的第i个分词的概率。
扩展句子的困惑度得分越低,扩展句子的通顺度越高,扩展句子越通顺,在每个样本句子对应的多个扩展句子中筛选通顺度达到通顺度阈值的句子,作为该样本句子对应的扩展样本句子。
例如,样本句子e1对应10个扩展句子,其中4个扩展句子的通顺度达到通顺度阈值,将该4个扩展句子作为样本句子e1对应的扩展样本句子。
S350、通过扩展样本句子以及样本句子对初始语言模型进行训练,得到针对目标场景的语言模型。
其中,S350的描述参照上文S140的描述,此处不再赘述。
在本实施例中,得到样本句子对应的多个扩展句子,并在多个扩展句子中筛选通顺度达到通顺度阈值的句子作为扩展样本句子,扩展样本句子更加通顺准确,从而使得根据扩展样本句子和样本句子训练得到的语言模型的准确率较高且效果较好。
请参阅图4,图4示出了本申请一个实施例提出的一种语言模型的训练装置的框图,所述装置500包括:
分词模块410,用于对针对目标场景的样本句子进行分词处理,得到多个样本分词;
获取模块420,用于获取对应每个所述样本分词的相似分词;
句子获得模块430,用于根据所述多个样本分词以及所述多个样本分词各自对应的相似分词,得到扩展样本句子;
模型训练模块440,用于通过所述扩展样本句子以及所述样本句子对初始语言模型进行训练,得到针对所述目标场景的语言模型。
可选地,装置还包括筛选模块,用于获取针对所述目标场景的多个初始样本句子;从所述多个初始样本句子中获取句长处于目标句长区间的句子,作为所述样本句子。
可选地,筛选模块,还用于获取针对所述目标场景的多个初始样本句子;统计每个所述初始样本句子的句子频率;从所述多个初始样本句子中获取句子频率处于目标句频区间的句子,作为所述样本句子。
可选地,筛选模块,还用于获取针对所述目标场景的多个初始样本句子;对每个所述初始样本句子进行句子结构分析,得到每个所述初始样本句子的结构分析结果;从所述多个初始样本句子中获取结构分析结果为句子结构完整的句子,作为所述样本句子。
可选地,获取模块420,还用于获取对应每个所述样本分词的多个初始相似分词;确定每个所述初始相似分词以及与该初始相似分词对应的样本分词之间的分词相似度;按照分词相似度由高到低在每个所述样本分词对应的多个初始相似分词中确定目标数量的分词,作为每个所述样本分词对应的相似分词。
可选地,句子获得模块430,还用于在所述样本句子中确定至少一个样本分词作为目标分词;
将所述目标分词替换为与所述目标分词对应的相似分词,得到对应所述样本句子的扩展样本句子。
可选地,句子获得模块430,还用于根据所述多个样本分词以及所述多个样本分词各自对应的相似分词,得到多个扩展句子;确定每个所述扩展句子的通顺度;在所述多个扩展句子中确定通顺度达到通顺度阈值的句子,作为所述扩展样本句子。
需要说明的是,本申请中的装置实施例与前述方法实施例是相互对应的,装置实施例中具体的原理可以参见前述方法实施例中的内容,此处不再赘述。
图5示出了本申请一个实施例提出的一种电子设备的结构框图,电子设备用于执行根据本申请实施例的语言模型的训练方法。如图5所示,电子设备1200包括中央处理单元(Central Processing Unit,CPU)1201,其可以根据存储在只读存储器(Read-OnlyMemory,ROM)1202中的程序或者从存储部分1208加载到随机访问存储器(Random AccessMemory,RAM)1203中的程序而执行各种适当的动作和处理,例如执行上述实施例中的方法。在RAM 1203中,还存储有系统操作所需的各种程序和数据。CPU1201、ROM1202以及RAM 1203通过总线1204彼此相连。输入/输出(Input/Output,I/O)接口1205也连接至总线1204。
以下部件连接至I/O接口1205:包括键盘、鼠标等的输入部分1206;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分1207;包括硬盘等的存储部分1208;以及包括诸如LAN(Local AreaNetwork,局域网)卡、调制解调器等的网络接口卡的通信部分1209。通信部分1209经由诸如因特网的网络执行通信处理。驱动器1210也根据需要连接至I/O接口1205。可拆卸介质1211,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1210上,以便于从其上读出的计算机程序根据需要被安装入存储部分1208。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1209从网络上被下载和安装,和/或从可拆卸介质1211被安装。在该计算机程序被中央处理单元(CPU)1201执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
参考图6,图6示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读存储介质600中存储有程序代码,该程序代码可被处理器调用执行上述方法实施例中所描述的方法。
计算机可读存储介质600可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读存储介质600包括非易失性计算机可读存储介质(non-transitory computer-readable storage medium)。计算机可读存储介质600具有执行上述方法中的任何方法步骤的程序代码610的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码610可以例如以适当形式进行压缩。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读存储介质承载计算机可读指令,当该计算机可读存储指令被处理器执行时,实现上述任一实施例中的方法。
根据本申请实施例的一个方面,提供了计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该电子设备执行上述任一实施例中的方法。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的实施方式后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种语言模型的训练方法,其特征在于,所述方法包括:
对针对目标场景的样本句子进行分词处理,得到多个样本分词;
获取对应每个所述样本分词的相似分词;
根据所述多个样本分词以及所述多个样本分词各自对应的相似分词,得到扩展样本句子;
通过所述扩展样本句子以及所述样本句子对初始语言模型进行训练,得到针对所述目标场景的语言模型。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取针对所述目标场景的多个初始样本句子;
从所述多个初始样本句子中获取句长处于目标句长区间的句子,作为所述样本句子。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取针对所述目标场景的多个初始样本句子;
统计每个所述初始样本句子的句子频率;
从所述多个初始样本句子中获取句子频率处于目标句频区间的句子,作为所述样本句子。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取针对所述目标场景的多个初始样本句子;
对每个所述初始样本句子进行句子结构分析,得到每个所述初始样本句子的结构分析结果;
从所述多个初始样本句子中获取结构分析结果为句子结构完整的句子,作为所述样本句子。
5.根据权利要求1所述的方法,其特征在于,所述获取对应每个所述样本分词的相似分词,包括:
获取对应每个所述样本分词的多个初始相似分词;
确定每个所述初始相似分词以及与该初始相似分词对应的样本分词之间的分词相似度;
按照分词相似度由高到低在每个所述样本分词对应的多个初始相似分词中确定目标数量的分词,作为每个所述样本分词对应的相似分词。
6.根据权利要求1所述的方法,其特征在于,所述根据所述多个样本分词以及所述多个样本分词各自对应的相似分词,得到扩展样本句子,包括:
在所述样本句子中确定至少一个样本分词作为目标分词;
将所述目标分词替换为与所述目标分词对应的相似分词,得到对应所述样本句子的扩展样本句子。
7.根据权利要求1所述的方法,其特征在于,所述根据所述多个样本分词以及所述多个样本分词各自对应的相似分词,得到扩展样本句子,包括:
根据所述多个样本分词以及所述多个样本分词各自对应的相似分词,得到多个扩展句子;
确定每个所述扩展句子的通顺度;
在所述多个扩展句子中确定通顺度达到通顺度阈值的句子,作为所述扩展样本句子。
8.一种语言模型的训练装置,其特征在于,所述装置包括:
分词模块,用于对针对目标场景的样本句子进行分词处理,得到多个样本分词;
获取模块,用于获取对应每个所述样本分词的相似分词;
句子获得模块,用于根据所述多个样本分词以及所述多个样本分词各自对应的相似分词,得到扩展样本句子;
模型训练模块,用于通过所述扩展样本句子以及所述样本句子对初始语言模型进行训练,得到针对所述目标场景的语言模型。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行如权利要求1-7中任一项所述的方法。
10.一种计算机可读取存储介质,其特征在于,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211298201.5A CN115630643A (zh) | 2022-10-21 | 2022-10-21 | 语言模型的训练方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211298201.5A CN115630643A (zh) | 2022-10-21 | 2022-10-21 | 语言模型的训练方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115630643A true CN115630643A (zh) | 2023-01-20 |
Family
ID=84906080
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211298201.5A Pending CN115630643A (zh) | 2022-10-21 | 2022-10-21 | 语言模型的训练方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115630643A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116992834A (zh) * | 2023-09-27 | 2023-11-03 | 国高信息技术产业研究院(山东)集团有限公司 | 基于人工智能的辅助写作方法、系统、介质及电子设备 |
-
2022
- 2022-10-21 CN CN202211298201.5A patent/CN115630643A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116992834A (zh) * | 2023-09-27 | 2023-11-03 | 国高信息技术产业研究院(山东)集团有限公司 | 基于人工智能的辅助写作方法、系统、介质及电子设备 |
CN116992834B (zh) * | 2023-09-27 | 2024-01-05 | 国高信息技术产业研究院(山东)集团有限公司 | 基于人工智能的辅助写作方法、系统、介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7164729B2 (ja) | クロスモーダル情報検索方法及びその装置、並びに記憶媒体 | |
CN108073568B (zh) | 关键词提取方法和装置 | |
CN112559800B (zh) | 用于处理视频的方法、装置、电子设备、介质和产品 | |
CN107861948B (zh) | 一种标签提取方法、装置、设备和介质 | |
CN111061877A (zh) | 文本主题提取方法和装置 | |
CN112613293B (zh) | 摘要生成方法、装置、电子设备及存储介质 | |
CN113158656B (zh) | 讽刺内容识别方法、装置、电子设备以及存储介质 | |
CN114840662A (zh) | 事件信息抽取方法、装置及电子设备 | |
CN115840808A (zh) | 科技项目咨询方法、装置、服务器及计算机可读存储介质 | |
CN115630643A (zh) | 语言模型的训练方法、装置、电子设备及存储介质 | |
WO2015131528A1 (zh) | 确定给定文本的主题分布的方法和装置 | |
CN116402166B (zh) | 一种预测模型的训练方法、装置、电子设备及存储介质 | |
CN112542163B (zh) | 智能语音交互方法、设备及存储介质 | |
CN112231444A (zh) | 结合rpa和ai的语料数据的处理方法、装置和电子设备 | |
CN110675865A (zh) | 用于训练混合语言识别模型的方法和装置 | |
CN115964474A (zh) | 一种政策关键词抽取方法、装置、存储介质及电子设备 | |
CN106959945B (zh) | 基于人工智能的为新闻生成短标题的方法和装置 | |
CN113420545B (zh) | 摘要生成方法、装置、设备及存储介质 | |
CN111401069A (zh) | 会话文本的意图识别方法、意图识别装置及终端 | |
CN113821601A (zh) | 文本对比方法、装置、设备和介质 | |
CN116821327A (zh) | 文本数据处理方法、装置、设备、可读存储介质及产品 | |
CN110442714B (zh) | Poi名称规范性评估方法、装置、设备和存储介质 | |
CN110276001B (zh) | 盘点页识别方法、装置、计算设备和介质 | |
CN114625922A (zh) | 一种构建词库的方法、装置、电子设备及存储介质 | |
CN110619869B (zh) | 用于训练混合语言识别模型的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |