CN110334197A - 语料处理方法及相关装置 - Google Patents
语料处理方法及相关装置 Download PDFInfo
- Publication number
- CN110334197A CN110334197A CN201910577164.3A CN201910577164A CN110334197A CN 110334197 A CN110334197 A CN 110334197A CN 201910577164 A CN201910577164 A CN 201910577164A CN 110334197 A CN110334197 A CN 110334197A
- Authority
- CN
- China
- Prior art keywords
- corpus
- original
- language material
- participle
- original language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例公开了一种语料处理方法及相关装置,方法包括:获取第一原始语料;对所述第一原始语料执行预设语料扩充操作,得到至少一个第一参考扩充语料,所述预设语料扩充操作用于在相同语义约束条件下变更所述第一原始语料的表述形式;从所述至少一个第一参考扩充语料中筛选符合预设条件的一个或多个第一参考扩充语料,将筛选出的所述一个或多个第一参考扩充语料作为所述第一原始语料的最终扩充语料。本申请有利于提高语料扩充系统进行提高语料扩充的效率和准确度。
Description
技术领域
本申请涉及电子设备技术领域,具体涉及一种语料处理方法及相关装置。
背景技术
随着计算机的快速发展,计算机自然语言处理作为一门重要的技术也渗入了人们的生活中。比如目前的语音交互软件,问答系统,聊天机器人在现实生活中的使用越来越多,他们已成为自然语言处理领域研究的热点。这些系统和软件都旨在让系统或者机器理解人的语言,并给出对应的回答。而这些聊天类的系统特别依赖自然语言处理技术和人工编写的语料库。所以聊天系统中,语料库的构建和扩充变得至关重要。
发明内容
本申请实施例提供了一种语料处理方法及相关装置,以期提高设备进行语料扩充的效率和准确度。
第一方面,本申请实施例提供一种语料处理方法,包括:
获取第一原始语料;
对所述第一原始语料执行预设语料扩充操作,得到至少一个第一参考扩充语料,所述预设语料扩充操作用于在相同语义约束条件下变更所述第一原始语料的表述形式;
从所述至少一个第一参考扩充语料中筛选符合预设条件的一个或多个第一参考扩充语料,将筛选出的所述一个或多个第一参考扩充语料作为所述第一原始语料的最终扩充语料。
第二方面,本申请实施例提供一种语料处理装置,包括处理单元和通信单元,其中,
所述处理单元,用于通过所述通信单元获取第一原始语料;以及用于对所述第一原始语料执行预设语料扩充操作,得到至少一个第一参考扩充语料,所述预设语料扩充操作用于在相同语义约束条件下变更所述第一原始语料的表述形式;以及用于从所述至少一个第一参考扩充语料中筛选符合预设条件的一个或多个第一参考扩充语料,将筛选出的所述一个或多个第一参考扩充语料作为所述第一原始语料的最终扩充语料。
第三方面,本申请实施例提供一种电子设备,包括处理器、存储器、通信接口以及一个或多个程序,其中,上述一个或多个程序被存储在上述存储器中,并且被配置由上述处理器执行,上述程序包括用于执行本申请实施例第一方面任一方法中的步骤的指令。
第四方面,本申请实施例提供了一种计算机可读存储介质,其中,上述计算机可读存储介质存储用于电子数据交换的计算机程序,其中,上述计算机程序使得计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。
第五方面,本申请实施例提供了一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
可以看出,本申请实施例中,语料扩充系统首先获取第一原始语料;其次,对第一原始语料执行预设语料扩充操作,得到至少一个第一参考扩充语料,预设语料扩充操作用于在相同语义约束条件下变更第一原始语料的表述形式,最后,从至少一个第一参考扩充语料中筛选符合预设条件的一个或多个第一参考扩充语料,将筛选出的一个或多个第一参考扩充语料作为第一原始语料的最终扩充语料。可见,本申请实施例能够通过预设语料扩充操作对原始语料进行自动扩充,且相同语义约束条件保证语料扩充的准确度,避免因语料扩充不当而引入不符合真实的用户场景的语料数据,有利于提高语料扩充系统进行语料扩充的效率和准确度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种语料扩充系统的示意图;
图2a是本申请实施例提供的一种语料处理方法的流程示意图;
图2b是本申请实施例提供的一种孪生网络模型结构示例图;
图3本申请实施例提供的一种电子设备的结构示意图;
图4本申请实施例提供的一种语料处理装置的功能单元组成框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,图1为一个语料扩充系统100的示意图,该语料扩充系统100包括语料获取装置110、语料扩充装置120和语料筛选装置130,所述语料获取装置110连接所述语料扩充装置120,所述语料扩充装置120连接所述语料筛选装置130,所述语料获取装置110用于获取原始语料并发给语料扩充装置120进行语料扩充,语料扩充装置120用于将处理得到的扩充语料发送给语料筛选装置进行筛选,该语料扩充系统100可以包括集成式单体设备或者多设备,例如包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备,以及各种形式的用户设备(User Equipment,UE),移动台(Mobile Station,MS),终端设备(terminal device)等等。
现有的语料库的构建方法采用人工构建的方法,其中包括人工整理现有的请求语料,基于现网的语料去筛选和整理,还有基于模板库的语料构建方法。现有方法主要采用人工编写语料库,主要存在如下问题:
1)人工编写语料库和模板库的工作量较大,成本较高。
2)由于人工编写的语料库覆盖面不全、语料库不足,导致有些场景语境的语料会缺失,导致系统的语义理解给出的答案效果不好。
基于此,本申请实施例提出一种语料处理方法以解决上述问题,下面对本申请实施例进行详细介绍。
请参阅图2a,图2a是本申请实施例提供了一种语料处理方法的流程示意图,应用于如图1所示的语料扩充系统,如图所示,本语料处理方法包括:
S201,语料扩充系统获取第一原始语料。
其中,所述第一原始语料包括以下至少一种:系统数据库中的语料,人工编写的一些测试语料,现网筛选过的请求语料,预先设定的符合用户需求的语料等,该第一原始语料具体可以用于验证问答系统中的自动测试用例。
S202,所述语料扩充系统对所述第一原始语料执行预设语料扩充操作,得到至少一个第一参考扩充语料,所述预设语料扩充操作用于在相同语义约束条件下变更所述第一原始语料的表述形式。
其中,所述语料扩充操作包括以下至少一种:分词替换、分词删除、干扰词的添加、翻译和逆翻译。
在本步骤中,所述语料扩充系统对所述第一原始语料执行预设语料扩充操作,得到至少一个第一参考扩充语料,包括:所述语料扩充系统对所述第一原始语料进行分词和词性标注,得到分词后的第一原始语料;对所述分词后的第一原始语料执行预设语料扩充操作,得到至少一个第一参考扩充语料。
具体实现中,所述语料扩充系统对所述第一原始语料进行分词和词性标注,得到分词后的第一原始语料的具体实现过程可以是:所述语料扩充系统对所述第一原始语料进行分词,得到所述第一原始语料的分词的词序列;根据所述词序列进行词性标注,得到分词后的第一原始语料。
其中,所述分词操作和词性标注操作的方法可以使用哈工大的语言技术平台LTP技术得到第一原始语料的语义信息,该语义信息包括分词后得到的词序列和词性标注后得到的词性信息,所述词性信息是指针对分词的词性进行标识的描述信息,该描述信息的具体形式此处不做唯一限定,例如可以使用如表1所示的词性标注集中的“标签”列中的英文字母来实现标识,该表1中“含义”列为针对第一列对应位置的字母的词性的解释,“示例”列为词性的分词示例,所述分词的词性以下至少一种:代词、形容词、动词、副词、连词、方位词等等。
举例来说,如第一原始语料“请帮我打开微信”,提取语义信息为“请v/帮v/我r/打开v/微信n”,即“请(动词)/帮(动词)/我(代词)/打开(动词)/微信(名词)”。
表1
S203,所述语料扩充系统从所述至少一个第一参考扩充语料中筛选符合预设条件的一个或多个第一参考扩充语料,将筛选出的所述一个或多个第一参考扩充语料作为所述第一原始语料的最终扩充语料。
其中,所述预设条件包括:当前检测的第一参考扩充语料与所述第一原始语料的相似度大于预设相似度;和/或,当前检测的第一参考扩充语料的通顺度大于预设通顺度。
其中,相似度用于进一步约束扩充语料的语义不变。
具体实现中,所述语料扩充系统可以使用孪生网络Siamese LSTM模型,例如采用如图2b所示的孪生网络模型,该模型中,LSTMa和LSTMb是两个孪生的网络,word表示分词,wordi (a)表示第一原始语料的第i个分词,i大于等于1小于等于n,n为正整数,wordi (b)表示当前处理的第一参考扩充语料的第i个分词,i大于等于1小于等于n,Xi (a)表示网络LSTMa的输入,Xi (b)表示网络LSTMb的输入,hn (a)表示网络LSTMa的输出,hn (b)表示网络LSTMb的输出。得到模型的输出后使用如下公式1作为打分函数,计算两个句子的相似度得分。
其中hn (a)是句子a的向量表示,hn (b)是句子b的向量表示,y是相似度得分。本申请相似度计算方法包括如下步骤:对第一原始语料和当前处理的第一参考扩充语料进行分词和向量化,得到所述第一原始语料的第一原始词向量和所述第一参考扩充语料的第一参考词向量;其次,将所述第一原始词向量和所述第一扩充词向量输入LSTMa和LSTMb,获得所述第一原始语料的第一原始向量表示和所述第一参考扩充语料的第一参考向量表示;使用公式1中的得分函数计算所述第一参考扩充语料和所述第一原始语料的相似度;若所述相似度大于或等于设定的相似度阈值,则确认选取所述第一参考扩充语料,若所述相似度小于所述相似度阈值,则确认删除所述第一参考扩充语料。
其中,通顺度用于约束扩充语料的语义是顺畅无断续的,该通顺度具体可以通过困惑度来表征。在自然语言理解中,困惑度是用来度量一个语言模型优劣的方法,它主要是衡量每个词在一句话位置上出现的概率,或者衡量一个句子在整段文章位置上出现的概率。句子的困惑度越小,该句子是语法正确句子的概率越大,语言模型越好。如果第一参考扩充语料的困惑度越小,该第一参考扩充语料是句子的概率就越大。
具体实现中,所述语料扩充系统可以使用现有的深度神经网络算法(Deep NeuralNetworks,DNN)模型对当前处理的第一参考扩充语料计算困惑度根据设定的困惑度阈值(阈值一般根据应用需求或实验确定),则确定删除所述第一参考扩充语料,若所述困惑度小于所述困惑度阈值,则确定选取所述第一参考扩充语料。
此外,本申请提出的语料扩充方法同样可以适用自动测试用例的生成,可以用于验证问答系统对语料模糊匹配的效果问题等,验证问答系统的容错能力等,由于本申请的语料扩充方法可以从多维度对原始语料进行全面、系统的语料扩充,从而使得语料库能够尽可能多的涵盖语义一致的不同表现形式的扩充语料,从而可以降低未包含在语料库但实际上表达相同语义的语料被误识别的情况的呈现概率,有利于增加系统的容错能力,增强问答库语料的多样性和问答系统的鲁棒性。
可以看出,本申请实施例中,语料扩充系统首先获取第一原始语料;其次,对第一原始语料执行预设语料扩充操作,得到至少一个第一参考扩充语料,预设语料扩充操作用于在相同语义约束条件下变更第一原始语料的表述形式,最后,从至少一个第一参考扩充语料中筛选符合预设条件的一个或多个第一参考扩充语料,将筛选出的一个或多个第一参考扩充语料作为第一原始语料的最终扩充语料。可见,本申请实施例能够通过预设语料扩充操作对原始语料进行自动扩充,且相同语义约束条件保证语料扩充的准确度,避免因语料扩充不当而引入不符合真实的用户场景的语料数据,有利于提高语料扩充系统进行语料扩充的效率和准确度。
在一个可能的示例中,所述预设语料扩充操作包括分词替换;所述对所述第一原始语料执行预设语料扩充操作,得到至少一个第一参考扩充语料,包括:所述语料扩充系统确定所述第一原始语料的至少一个第一原始分词;选取所述至少一个第一原始分词中的一个或多个第一原始分词;对所述一个或多个第一原始分词进行预设分词替换操作,与所述第一原始语料融合处理后得到至少一个第一参考扩充语料,所述预设分词替换操作包括以下至少一种:同音字替换、模糊音替换、同义词替换。
具体实现中,所述预设分词替换操作包括同音字替换,所述对所述一个或多个第一原始分词进行预设分词替换操作,与所述第一原始语料融合处理后得到至少一个第一参考扩充语料,包括:所述语料扩充系统依次将所述一个或多个第一原始分词中每个第一原始分词转换成对应的拼音;将所述每个第一原始分词由拼音转换为同音分词,并替换所述第一原始语料中所述每个第一原始分词,得到至少一个第一参考扩充语料。
其中,所述拼音转换操作可以使用现有的词库,在汉字转拼音,拼音转汉字的过程中,转换前后词语的拼音含有音调一致和/或音调不一致的。
举例来说,比如用户想表达的第一原始语料是“来生缘一起走过的日子是一首听起来就很不错的歌哦”,分词后的词序列为“来生缘/一起/走过/的/日子/是/一首/听起来/就/很/不错/的/歌/哦”,对词序列中的每个词进行同音转换,比如词语“一首”这个词转化为拼音“yi’shou”,再将“yi’shou”转化为汉字可得到谐音词语“一手”,所以可得到第一参考扩充语料“来生缘一起走过的日子是一手听起来就很不错的歌哦”。同理,分词“的”用同音词“得”替换后,可以得到第一参考扩充语料为“来生缘一起走过得日子是一首听起来就很不错的歌哦”,分词“一首”用同音词“一手”替换,分词“歌”用同音词“哥”替换后,可以得到第一参考扩充语料为“来生缘一起走过的日子是一手听起来就很不错的哥哦”等等多个第一参考扩充语料”。
具体实现中,所述预设分词替换操作包括模糊音替换,所述对所述一个或多个第一原始分词进行预设分词替换操作,与所述第一原始语料融合处理后得到至少一个第一参考扩充语料,包括:所述语料扩充系统将所述一个或多个第一原始分词中每个第一原始分词的原始拼音进行模糊音节替换得到参考拼音;根据所述参考拼音转换所述每个第一原始分词为对应的参考分词,并使用该参考分词替换所述第一原始语料中对应的第一原始分词,得到至少一个第一参考扩充语料。
其中,所述参考拼音包括以下模糊音节中的至少一种:声母模糊音节、韵母模糊音节、组合模糊音节等等。具体地,声母模糊音节包括以下至少一种:zh和z、ch和c、sh和s、n和l、h和f、r和l,韵母模糊音节包括以下至少一种:ang和an、eng和en、ing和in、iang和ian、uang和uan,组合模糊音音节包括以下至少一种:fa和hua、fan和huan、fang和huang、fei和hui、fen和hun、feng和hong、fo和huo、fu和hu等。
具体实现中,所述语料扩充系统将所述一个或多个第一原始分词中每个第一原始分词的原始拼音转换成模糊拼音,包括:所述语料扩充系统针对所述每个第一原始分词的原始拼音中的声母和/或韵母,进行模糊音节替换,得到模糊拼音。
其中,仅针对声母,替换后的模糊拼音为“声母的模糊音节-韵母”,仅针对韵母,替换后的模糊拼音为“声母-韵母的模糊音节”,针对声母和韵母,替换后的模糊拼音为“声母的模糊音节-韵母的模糊音节”。
举例来说,比如第一原始语料“感到幸福你就拍拍手是一首很好听的歌曲”,其中分词“幸福”的拼音是“xing’fu”,通过模糊音节的替换可以得到参考拼音“xin’fu”,从而“幸福”得到转换后的词语有“信服”、“心腹”等所有发这个音的谐音词语,进一步可以得到第一参考扩充语料为“感到信服你就拍拍手是一首很好听的歌曲”,或者“感到心腹你就拍拍手是一首很好听的歌曲”。同样分词“手”的原始拼音为“shou”,“shou”中音节“sh”的模糊音节为“s”,基于模糊音节替换可以得到转换后参考拼音为“sou”,进一步得到汉字可以为“艘”,从而得到扩充后的第一参考扩充语料为“感到幸福你就拍拍艘是一首很好听的歌曲”。
可见,本申请考虑到在一些方言或者发音不标准的场景下,很多音节与普通话不同,但是音节却很相近。所以基于模糊音扩充后的语料,可以将一些容易混淆的音节进行通用,可以大幅度提高用户问答的识别率,这样可得到具有更大弹性空间的语料库。
具体实现中,所述预设分词替换操作包括同义词替换,所述对所述一个或多个第一原始分词进行预设分词替换操作,与所述第一原始语料融合处理后得到至少一个第一参考扩充语料,包括:所述语料扩充系统确定所述一个或多个第一原始分词中每个第一原始分词替换为同义词,并替换所述第一原始语料中所述每个第一原始分词,得到至少一个第一参考扩充语料。
其中,同义词的确定可以是根据预设的同义词词库(例如:哈工大同义词词库)进行的。具体比如“小王的老婆是谁”,语料扩充系统对第一原始分词依次在同义词词库中找它们的同义词,其中名词“老婆”在同义词词库中的同义词有“妻子”“媳妇”“夫人”“贤内助”等等,将“老婆”进行同义词替换后有“小王的夫人是谁”,“小王的妻子是谁”等等。此外,为使得词库中同义词的词义更加相近,本申请在替换同义词之前对词库中的同义词可以进行分词的相似度计算(例如:调用synonyms模块进行词相似度的计算),当相似度大于等于设定的词相似度阈值时才进行同义词替换。同理,语料扩充系统也可以基于反义词替换得到语义相反的扩充语料。
上述分词替换扩充操作后的示例扩充语料如下表2所示,其中,“原始语料”列中包括原始语料,“扩充预料”列中包括原始语料的扩充语料。
表2
原始语料 | 扩充语料 |
自动生成问答系统的问答语料 | 自动生成问答系统的问答预料 |
感到幸福你就拍拍手 | 敢到幸福你就拍拍手 |
来一首小王的忘情水 | 来一首小汪的忘情水 |
能给我讲一下飞机运行的原理吗? | 能给我讲一下灰机运行的原理吗? |
感到幸福你就拍拍手是一首很好听的歌曲 | 感到信服你就拍拍手是一首很好听的歌曲 |
感到幸福你就拍拍手是一首很好听的歌曲 | 感到幸福你就拍拍艘是一首很好听的歌曲 |
难道你就不能懂我的心 | 难倒你就不能懂我的心 |
小王的老婆是谁 | 小王的夫人是谁 |
在一个可能的示例中,所述预设语料扩充操作包括干扰词的添加;所述对所述第一原始语料执行预设语料扩充操作,得到至少一个第一参考扩充语料,包括:所述语料扩充系统确定所述第一原始语料的至少一个第一原始分词的词序列和每个第一原始分词的词性;根据所述词序列和所述每个第一原始分词的词性,确定所述第一原始语料的用于添加干扰词的目标位置,所述目标位置包括以下至少一种:句前、句中和句末;在所述第一语料的所述目标位置添加对应的干扰词,得到至少一个第一参考扩充语料。
在本示例中,所述语料扩充系统确定所述第一原始语料的至少一个第一原始分词的词序列和每个第一原始分词的词性,包括:所述语料扩充系统对所述第一原始语料进行语义分析,得到所述第一原始语料的词性标注序列;根据所述词性标注序列,确定所述第一原始语料的至少一个第一原始分词的词序列和每个第一原始分词的词性。
本申请所描述的干扰词包括经常出现的、对整个语句的语义实际不起作用但会起到干扰作用的分词。本申请中干扰词库可以预设的停用词词库(例如:使用哈工大停用词词库),并可以根据实际任务对词库进行删减。在本申请中将干扰词库可以分为三类,第一类是语句前添加的干扰词库,具体包括以下至少一种:语气助词(你好,喂,请问等)、连词(然而、因此)、介词(自从、由于等)等,第二类是句末添加的干扰词库,具体包括以下至少一种:啊,呢,呀等等,第三类是句中添加干扰词库,具体包括以下至少一种:啊,嗯,嗯嗯,啊,的,哦等等,这三类词库都筛选来自停用词表。具体干扰词的添加机制包括以下至少一种:
第一种,所述语料扩充系统在所述第一语料的所述目标位置添加对应的干扰词,得到至少一个第一参考扩充语料,包括:所述语料扩充系统在所述第一原始语料的句首添加对应的干扰词,得到至少一个第一参考扩充语料。
具体实现中,语料扩充系统可以根据预配置的句首干扰词库(例如可以包含语气助词、连词、介词等),对第一原始语料的句首添加干扰词。
举例来说,比如“公司A怎么走?”,基于句首干扰词词库添加干扰词,得到扩充语料“请问公司A怎么走?”,“喂公司A怎么走”,“然而公司A怎么走”,“哎呀公司A怎么走”等多个结果的扩充语料。
第二种,所述语料扩充系统在所述第一语料的所述目标位置添加对应的干扰词,得到至少一个第一参考扩充语料,包括:所述语料扩充系统在所述第一原始语料的句末添加对应的干扰词,得到至少一个第一参考扩充语料。
具体实现中,所述语料扩充系统可以基于预配置的句末干扰词库,对原始语料句尾添加干扰词。比如“公司A怎么走”,基于句末干扰词词库添加干扰词,得到扩充语料“公司A怎么走呢”,“公司A怎么走啊”等多个结果的扩充语料。
第三种,所述语料扩充系统在所述第一语料的所述目标位置添加对应的干扰词,得到至少一个第一参考扩充语料,包括:所述语料扩充系统在所述第一原始语料的句中添加对应的干扰词,得到至少一个第一参考扩充语料。
具体实现中,所述语料扩充系统可以查询预设的句中干扰词模式库,对符合句中干扰词模式库中的句中干扰词模式的分词组合进行句中干扰词的添加,所述句中干扰词模式库包括多个句中干扰词模式,每个句中干扰词模式包括由第一分词和第二分词所组成的组合模式,以及该组合模式对应的句中干扰词。
其中,语料扩充系统可以基于停用词表整理得到句中干扰词库,然后对大量用户问答数据进行语义分析即分词和词性标注,对于大量问答数据中出现句中干扰词的前后词性进行记录,将其出现形式记为一种组合模式,计算该种组合模式下中间词语为本干扰词的概率,并在该概率大于预设概率时将根据该组合模式和本干扰词确定句中干扰词模式;重复上述过程得到多个句中干扰词模式,形成上述句中干扰词模式库。
举例来说,第一原始语料“我的妈妈很美丽”语义分析后得到词性标注序列为“我(r)/的(u)/妈妈(n)/很(d)/美丽(a)”,即“我(人称代词)/的(辅助词)/妈妈(一般名词)/很(副词)/美丽(形容词)”,该词性标注序列中出现分词“的”,该分词在干扰词词库中,则记录干扰词“的”前后的词性,即为“r(人称代词)_n(一般名词)”的组合模式。基于大量数据记录组合模式出现的次数,并计算该组合模式的中间词为某个干扰词出现的频率,例如组合模式“人称代词_一般名词”中间词为干扰词“的”的概率计算公式如公式2。
公式2中Cd表示组合模式下中间词语为本干扰词(“人称代词-的-一般名词”)出现的次数,Ca表示“人称代词-任何词性的词-一般名词”的出现次数。
表3列举了中间词为干扰词“的”的几个组合模式。表3中所示,第一列为常见干扰词的名称。第二列是本干扰词前后词语的词性记录模式(每一类词性表示的含义请参照表1)。第三列为该种组合模式下中间词语为本干扰词的概率。最后一列为这种组合模式出现的次数。当某种组合模式下某干扰词出现的概率(即公式2)大于预先设定的阈值时(具体参数可以根据实际情况),并且该组合模式(即公式2中的分母)出现次数大于一定基数(具体根据实际情况设定),便将这种词性组合的模式标记记录下来,作为句中干扰词模式,添加到干扰词模式库。
表3
干扰词 | 组合模式(即干扰词前后词性) | 该组合模式下中间词为本干扰词的概率 | 该组合模式出现次数 |
的 | a_n(形容词_一般名词) | 0.605 | 12341 |
的 | n_n(名词_名词) | 0.413 | 54352 |
的 | a_m(形容词_数字类型的) | 0.354 | 257 |
表4所示是干扰词“的”和“呢”的符合设定阈值的部分组合模式添加列表(可以理解为句中干扰词模式库的一种列表表现形式),其中第一列是干扰词为“呢”的组合模式,第二列为干扰词为“的”的组合模式。
对第一原始语料的词性标注序列,如果前后词性出现句中干扰词模式库中的组合模式,则添加该组合模式对应的干扰词。比如“目前还欠多少话费”,分词和词性标注后得到词性标注序列为“目前(nt)/还(d)/欠(v)/多少(a)/话费(n)"”即“目前(时间名词)/还(副词)/欠(v)/多少(形容词)/话费(n)”,该序列中出现“nt_d”即“时间名词_副词”,在句中干扰词模式库中存在,则将符合的干扰词(比如“呢”)添加,得到第一参考扩充语料即为“目前呢还欠多少话费”。同样基于组合模式“a_n”符合添加的干扰词有“的”,得到扩充语料“目前还欠多少的话费”。
表4
“呢”的组合模式 | “的”的组合模式 |
r_v(代词_动词) | a_n(形容词_一般名词) |
nt_d(习语_代词) | n_n(名词_名词) |
可见,本示例中,基于干扰词的添加,句首句末句中添加规则可以任意组合得到多种扩充语料。所述干扰词添加生成的扩充语料是基于大量数据统计出来的规则,模拟真实存在的语境,增强扩充语料的多样性和系统的鲁棒性。
在一个可能的示例中,所述预设语料扩充操作包括翻译和逆翻译;所述对所述第一原始语料执行预设语料扩充操作,得到至少一个第一参考扩充语料,包括:所述语料扩充系统确定所述第一原始语料的至少一个第一原始分词的词序列和每个第一原始分词的词性;根据所述词序列和所述每个第一原始分词的词性,确定所述第一原始语料的至少一个翻译单元,所述翻译单元包括以下任意一种:分词、短语、子句、句子;对所述至少一个翻译单元中每个翻译单元进行翻译和逆翻译,并将翻译结果与所述第一原始语料融合处理,得到至少一个第一参考扩充语料。
具体实现中,语料扩充系统可以将第一原始语料的每个翻译单元翻译成英文、法语、日语或其他语种(例如可以使用各种翻译软件的应用程序编程接口(ApplicationProgramming Interface,API)进行翻译),再将其翻译为中文,这样利用各种语种之间的多样性和差异性,可以得到不同于原始语料的扩充语料。下面分情况进行说明。
第一种,所述翻译单元包括分词(又称为词语),所述语料扩充系统对所述至少一个翻译单元中每个翻译单元进行翻译和逆翻译,并将翻译结果与所述第一原始语料融合处理,得到至少一个第一参考扩充语料,包括:所述语料扩充系统对翻译单元中的词语进行翻译与逆翻译,得到所述词语的翻译结果,将所述翻译结果与所述第一原始语料融合处理,得到至少一个第一参考扩充语料。
举例来说,所述第一原始语料为“您好帮我查一下去合肥的机票?”,分词和词性标注后得到词性标注序列为“您好/帮/我/查/一下/去/合肥/的/机票”,根据百度翻译“您好”翻译为英文“Hello”,再用百度翻译将“Hello”翻译为中文为“你好”,得到扩充后的第一参考扩充语料为“你好帮我查一下去合肥的机票?”。同理根据不同语种之间的翻译和逆翻译可以得到扩充后的第一参考扩充语料可以包括以下任意一种:“喂帮我查一下去合肥的机票?”、“您好帮助我查一下去合肥的机票?”、“您好帮我查询一下去合肥的机票?”、“您好帮我查一下去合肥的飞机票?”。
第二种,所述翻译单元包括短语或子句,所述语料扩充系统对所述至少一个翻译单元中每个翻译单元进行翻译和逆翻译,并将翻译结果与所述第一原始语料融合处理,得到至少一个第一参考扩充语料,包括:所述语料扩充系统对翻译单元中的短语或子句进行翻译与逆翻译,得到所述短语或子句的翻译结果,将所述翻译结果与所述第一原始语料融合处理,得到至少一个第一参考扩充语料。
举例来说,所述第一原始语料为“好久不见,你最近怎么样”,对子句“你最近怎么样”进行不同语种之间的翻译与逆翻译可得到扩充语料“好久不见,你好吗”、“好久不见,你最近做什么”、“好久不见,你最近好不好”等。对子句“好久不见”进行不同语种之间的翻译与逆翻译可得到扩充语料“好长时间没见,你最近怎么样”、“好久没看到你,你最近怎么样”等
第三种,所述翻译单元包括句子,所述语料扩充系统对所述至少一个翻译单元中每个翻译单元进行翻译和逆翻译,并将翻译结果与所述第一原始语料融合处理,得到至少一个第一参考扩充语料,包括:所述语料扩充系统对翻译单元中的句子进行翻译与逆翻译,得到所述句子的翻译结果,将所述翻译结果与所述第一原始语料融合处理,得到至少一个第一参考扩充语料。
举例来说,所述第一原始语料为“合肥明天的天气好不好”,根据微软翻译(中译英)得到“how's the weather tomorrow in Hefei?”,再根据微软翻译得到中文语料“合肥明天的天气怎么样?”。同理对第一原始语料“你今年多大了”进行不同语种之间的翻译与逆翻译,可以得到第一参考扩充语料“你今年几岁了”、“你几岁”、“你多大了”等。针对第一原始语料仅包括当前句子的情况,上述融合处理由于没有更多语料需要融合,因此可以做空融合处理。
可见,本示例中,翻译与逆翻译规则生成的扩充语料充分利用了不同语种之间的差异性,可以生成文法结构不同但语义相同的语料。
在一个可能的示例中,所述预设语料扩充操作包括分词删除;所述对所述第一原始语料执行预设语料扩充操作,得到至少一个第一参考扩充语料,包括:所述语料扩充系统确定所述第一原始语料的至少一个第一原始分词的词序列和每个第一原始分词的词性;根据所述词序列和所述每个第一原始分词的词性,确定所述第一原始语料中待删除的一个或多个第一原始分词;根据所述待删除的一个或多个第一原始分词对所述第一原始语料执行分词删除操作,得到至少一个第一参考扩充语料。
在本可能的示例中,所述确定所述第一原始语料的至少一个第一原始分词的词序列和每个第一原始分词的词性,包括:所述语料扩充系统对所述第一原始语料进行语义分析,得到所述第一原始语料的词性标注序列;根据所述词性标注序列,确定所述第一原始语料的至少一个第一原始分词的词序列和每个第一原始分词的词性。
其中,所述待删除的一个或多个第一原始分词包括根据预设分词识别策略识别出来的参考分词,该参考分词可以包括各种对语句本身语音无实质性影响的分词,例如语气助词、连词、介词等,此处不做唯一限定。
其中,所述参考分词的位置可以是句前、句中和句末,所述预设分词识别策略可以是分词比对筛选策略、或者类似于上述干扰词的添加分支中的分词的识别机制,此处不再赘述。
可见,本示例中,语料扩充系统能够针对第一原始语料中的参考分词进行删减,从而得到分词精简但语义完整的扩充语料,提高语料扩充全面性。
与上述图2a所示的实施例一致的,请参阅图3,图3是本申请实施例提供的一种电子设备300的结构示意图,如图所示,所述电子设备300包括应用处理器310、存储器320、通信接口330以及一个或多个程序321,其中,所述一个或多个程序321被存储在上述存储器320中,并且被配置由上述应用处理器310执行,所述一个或多个程序321包括用于执行以下步骤的指令;
获取第一原始语料;以及对所述第一原始语料执行预设语料扩充操作,得到至少一个第一参考扩充语料,所述预设语料扩充操作用于在相同语义约束条件下变更所述第一原始语料的表述形式;以及从所述至少一个第一参考扩充语料中筛选符合预设条件的一个或多个第一参考扩充语料,将筛选出的所述一个或多个第一参考扩充语料作为所述第一原始语料的最终扩充语料。
可以看出,本申请实施例中,语料扩充系统首先获取第一原始语料;其次,对第一原始语料执行预设语料扩充操作,得到至少一个第一参考扩充语料,预设语料扩充操作用于在相同语义约束条件下变更第一原始语料的表述形式,最后,从至少一个第一参考扩充语料中筛选符合预设条件的一个或多个第一参考扩充语料,将筛选出的一个或多个第一参考扩充语料作为第一原始语料的最终扩充语料。可见,本申请实施例能够通过预设语料扩充操作对原始语料进行自动扩充,且相同语义约束条件保证语料扩充的准确度,避免因语料扩充不当而引入不符合真实的用户场景的语料数据,有利于提高语料扩充系统进行语料扩充的效率和准确度。
在一个可能的示例中,所述预设语料扩充操作包括分词替换;在所述对所述第一原始语料执行预设语料扩充操作,得到至少一个第一参考扩充语料方面,所述程序中的指令具体用于执行以下操作:确定所述第一原始语料的至少一个第一原始分词;以及选取所述至少一个第一原始分词中的一个或多个第一原始分词;以及对所述一个或多个第一原始分词进行预设分词替换操作,与所述第一原始语料融合处理后得到至少一个第一参考扩充语料,所述预设分词替换操作包括以下至少一种:同音字替换、模糊音替换、同义词替换。
在一个可能的示例中,所述预设语料扩充操作包括分词删除;在所述对所述第一原始语料执行预设语料扩充操作,得到至少一个第一参考扩充语料方面,所述程序中的指令具体用于执行以下操作:确定所述第一原始语料的至少一个第一原始分词的词序列和每个第一原始分词的词性;以及根据所述词序列和所述每个第一原始分词的词性,确定所述第一原始语料中待删除的一个或多个第一原始分词;以及根据所述待删除的一个或多个第一原始分词对所述第一原始语料执行分词删除操作,得到至少一个第一参考扩充语料。
在一个可能的示例中,所述预设语料扩充操作包括干扰词的添加;在所述对所述第一原始语料执行预设语料扩充操作,得到至少一个第一参考扩充语料方面,所述程序中的指令具体用于执行以下操作:确定所述第一原始语料的至少一个第一原始分词的词序列和每个第一原始分词的词性;以及根据所述词序列和所述每个第一原始分词的词性,确定所述第一原始语料的用于添加干扰词的目标位置,所述目标位置包括以下至少一种:句前、句中和句末;以及在所述第一语料的所述目标位置添加对应的干扰词,得到至少一个第一参考扩充语料。
在一个可能的示例中,所述预设语料扩充操作包括翻译和逆翻译;在所述对所述第一原始语料执行预设语料扩充操作,得到至少一个第一参考扩充语料方面,所述程序中的指令具体用于执行以下操作:确定所述第一原始语料的至少一个第一原始分词的词序列和每个第一原始分词的词性;以及根据所述词序列和所述每个第一原始分词的词性,确定所述第一原始语料的至少一个翻译单元,所述翻译单元包括以下任意一种:分词、短语、子句、句子;以及对所述至少一个翻译单元中每个翻译单元进行翻译和逆翻译,并将翻译结果与所述第一原始语料融合处理,得到至少一个第一参考扩充语料。
在一个可能的示例中,在所述确定所述第一原始语料的至少一个第一原始分词的词序列和每个第一原始分词的词性方面,所述程序中的指令具体用于执行以下操作:对所述第一原始语料进行语义分析,得到所述第一原始语料的词性标注序列;以及根据所述词性标注序列,确定所述第一原始语料的至少一个第一原始分词的词序列和每个第一原始分词的词性。
在一个可能的示例中,所述预设条件包括:当前检测的第一参考扩充语料与所述第一原始语料的相似度大于预设相似度;和/或,当前检测的第一参考扩充语料的通顺度大于预设通顺度。
上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是,电子设备为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所提供的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对电子设备进行功能单元的划分,例如,可以对应各个功能划分各个功能单元,也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。需要说明的是,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
图4是本申请实施例中所涉及的语料处理装置400的功能单元组成框图。该语料处理装置400应用于电子设备,所述电子设备包括处理单元401和通信单元402,其中,
所述处理单元401,用于通过所述通信单元402获取第一原始语料;以及用于对所述第一原始语料执行预设语料扩充操作,得到至少一个第一参考扩充语料,所述预设语料扩充操作用于在相同语义约束条件下变更所述第一原始语料的表述形式;以及用于从所述至少一个第一参考扩充语料中筛选符合预设条件的一个或多个第一参考扩充语料,将筛选出的所述一个或多个第一参考扩充语料作为所述第一原始语料的最终扩充语料。
其中,所述语料处理装置400还可以包括存储单元403,用于存储电子设备的程序代码和数据。所述处理单元401可以是处理器,所述通信单元402可以是内部通信接口,存储单元403可以是存储器。
可以看出,本申请实施例中,语料扩充系统首先获取第一原始语料;其次,对第一原始语料执行预设语料扩充操作,得到至少一个第一参考扩充语料,预设语料扩充操作用于在相同语义约束条件下变更第一原始语料的表述形式,最后,从至少一个第一参考扩充语料中筛选符合预设条件的一个或多个第一参考扩充语料,将筛选出的一个或多个第一参考扩充语料作为第一原始语料的最终扩充语料。可见,本申请实施例能够通过预设语料扩充操作对原始语料进行自动扩充,且相同语义约束条件保证语料扩充的准确度,避免因语料扩充不当而引入不符合真实的用户场景的语料数据,有利于提高语料扩充系统进行语料扩充的效率和准确度。
在一个可能的示例中,所述预设语料扩充操作包括分词替换;在所述对所述第一原始语料执行预设语料扩充操作,得到至少一个第一参考扩充语料方面,所述处理单元401具体用于:确定所述第一原始语料的至少一个第一原始分词;以及用于选取所述至少一个第一原始分词中的一个或多个第一原始分词;以及用于对所述一个或多个第一原始分词进行预设分词替换操作,与所述第一原始语料融合处理后得到至少一个第一参考扩充语料,所述预设分词替换操作包括以下至少一种:同音字替换、模糊音替换、同义词替换。
在一个可能的示例中,所述预设语料扩充操作包括分词删除;在所述对所述第一原始语料执行预设语料扩充操作,得到至少一个第一参考扩充语料方面,所述处理单元401具体用于:确定所述第一原始语料的至少一个第一原始分词的词序列和每个第一原始分词的词性;以及用于根据所述词序列和所述每个第一原始分词的词性,确定所述第一原始语料中待删除的一个或多个第一原始分词;以及用于根据所述待删除的一个或多个第一原始分词对所述第一原始语料执行分词删除操作,得到至少一个第一参考扩充语料。
在一个可能的示例中,所述预设语料扩充操作包括干扰词的添加;在所述对所述第一原始语料执行预设语料扩充操作,得到至少一个第一参考扩充语料方面,所述处理单元401具体用于:确定所述第一原始语料的至少一个第一原始分词的词序列和每个第一原始分词的词性;以及用于根据所述词序列和所述每个第一原始分词的词性,确定所述第一原始语料的用于添加干扰词的目标位置,所述目标位置包括以下至少一种:句前、句中和句末;以及用于在所述第一语料的所述目标位置添加对应的干扰词,得到至少一个第一参考扩充语料。
在一个可能的示例中,所述预设语料扩充操作包括翻译和逆翻译;在所述对所述第一原始语料执行预设语料扩充操作,得到至少一个第一参考扩充语料方面,所述处理单元401具体用于:确定所述第一原始语料的至少一个第一原始分词的词序列和每个第一原始分词的词性;以及用于根据所述词序列和所述每个第一原始分词的词性,确定所述第一原始语料的至少一个翻译单元,所述翻译单元包括以下任意一种:分词、短语、子句、句子;以及用于对所述至少一个翻译单元中每个翻译单元进行翻译和逆翻译,并将翻译结果与所述第一原始语料融合处理,得到至少一个第一参考扩充语料。
在一个可能的示例中,在所述确定所述第一原始语料的至少一个第一原始分词的词序列和每个第一原始分词的词性方面,所述处理单元具体用于:对所述第一原始语料进行语义分析,得到所述第一原始语料的词性标注序列;以及用于根据所述词性标注序列,确定所述第一原始语料的至少一个第一原始分词的词序列和每个第一原始分词的词性。
在一个可能的示例中,所述预设条件包括:当前检测的第一参考扩充语料与所述第一原始语料的相似度大于预设相似度;和/或,当前检测的第一参考扩充语料的通顺度大于预设通顺度。
本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤,上述计算机包括电子设备。
本申请实施例还提供一种计算机程序产品,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包,上述计算机包括电子设备。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种语料处理方法,其特征在于,包括:
获取第一原始语料;
对所述第一原始语料执行预设语料扩充操作,得到至少一个第一参考扩充语料,所述预设语料扩充操作用于在相同语义约束条件下变更所述第一原始语料的表述形式;
从所述至少一个第一参考扩充语料中筛选符合预设条件的一个或多个第一参考扩充语料,将筛选出的所述一个或多个第一参考扩充语料作为所述第一原始语料的最终扩充语料。
2.根据权利要求1所述的方法,其特征在于,所述预设语料扩充操作包括分词替换;所述对所述第一原始语料执行预设语料扩充操作,得到至少一个第一参考扩充语料,包括:
确定所述第一原始语料的至少一个第一原始分词;
选取所述至少一个第一原始分词中的一个或多个第一原始分词;
对所述一个或多个第一原始分词进行预设分词替换操作,与所述第一原始语料融合处理后得到至少一个第一参考扩充语料,所述预设分词替换操作包括以下至少一种:同音字替换、模糊音替换、同义词替换。
3.根据权利要求1所述的方法,其特征在于,所述预设语料扩充操作包括干扰词的添加;所述对所述第一原始语料执行预设语料扩充操作,得到至少一个第一参考扩充语料,包括:
确定所述第一原始语料的至少一个第一原始分词的词序列和每个第一原始分词的词性;
根据所述词序列和所述每个第一原始分词的词性,确定所述第一原始语料的用于添加干扰词的目标位置,所述目标位置包括以下至少一种:句前、句中和句末;
在所述第一语料的所述目标位置添加对应的干扰词,得到至少一个第一参考扩充语料。
4.根据权利要求1所述的方法,其特征在于,所述预设语料扩充操作包括分词删除;所述对所述第一原始语料执行预设语料扩充操作,得到至少一个第一参考扩充语料,包括:
确定所述第一原始语料的至少一个第一原始分词的词序列和每个第一原始分词的词性;
根据所述词序列和所述每个第一原始分词的词性,确定所述第一原始语料中待删除的一个或多个第一原始分词;
根据所述待删除的一个或多个第一原始分词对所述第一原始语料执行分词删除操作,得到至少一个第一参考扩充语料。
5.根据权利要求1所述的方法,其特征在于,所述预设语料扩充操作包括翻译和逆翻译;所述对所述第一原始语料执行预设语料扩充操作,得到至少一个第一参考扩充语料,包括:
确定所述第一原始语料的至少一个第一原始分词的词序列和每个第一原始分词的词性;
根据所述词序列和所述每个第一原始分词的词性,确定所述第一原始语料的至少一个翻译单元,所述翻译单元包括以下任意一种:分词、短语、子句、句子;
对所述至少一个翻译单元中每个翻译单元进行翻译和逆翻译,并将翻译结果与所述第一原始语料融合处理,得到至少一个第一参考扩充语料。
6.根据权利要求3-5任一项所述的方法,其特征在于,所述确定所述第一原始语料的至少一个第一原始分词的词序列和每个第一原始分词的词性,包括:
对所述第一原始语料进行语义分析,得到所述第一原始语料的词性标注序列;
根据所述词性标注序列,确定所述第一原始语料的至少一个第一原始分词的词序列和每个第一原始分词的词性。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述预设条件包括:
当前检测的第一参考扩充语料与所述第一原始语料的相似度大于预设相似度;和/或,
当前检测的第一参考扩充语料的通顺度大于预设通顺度。
8.一种语料处理装置,其特征在于,包括处理单元和通信单元,其中,
所述处理单元,用于通过所述通信单元获取第一原始语料;以及用于对所述第一原始语料执行预设语料扩充操作,得到至少一个第一参考扩充语料,所述预设语料扩充操作用于在相同语义约束条件下变更所述第一原始语料的表述形式;以及用于从所述至少一个第一参考扩充语料中筛选符合预设条件的一个或多个第一参考扩充语料,将筛选出的所述一个或多个第一参考扩充语料作为所述第一原始语料的最终扩充语料。
9.一种电子设备,其特征在于,包括处理器、存储器,以及一个或多个程序,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行如权利要求1-7任一项所述的方法中的步骤的指令。
10.一种计算机可读存储介质,其特征在于,存储用于电子数据交换的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910577164.3A CN110334197A (zh) | 2019-06-28 | 2019-06-28 | 语料处理方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910577164.3A CN110334197A (zh) | 2019-06-28 | 2019-06-28 | 语料处理方法及相关装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110334197A true CN110334197A (zh) | 2019-10-15 |
Family
ID=68144613
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910577164.3A Pending CN110334197A (zh) | 2019-06-28 | 2019-06-28 | 语料处理方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110334197A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110781689A (zh) * | 2019-10-25 | 2020-02-11 | 北京小米智能科技有限公司 | 信息处理方法、装置及存储介质 |
CN110879802A (zh) * | 2019-10-28 | 2020-03-13 | 同济大学 | 一种日志模式提取及匹配方法 |
CN111079441A (zh) * | 2019-12-16 | 2020-04-28 | 深圳市三宝创新智能有限公司 | 一种知音语义系统 |
CN111191032A (zh) * | 2019-12-24 | 2020-05-22 | 深圳追一科技有限公司 | 语料扩充方法、装置、计算机设备和存储介质 |
CN111241813A (zh) * | 2020-04-29 | 2020-06-05 | 同盾控股有限公司 | 语料扩展方法、装置、设备及介质 |
CN111488735A (zh) * | 2020-04-09 | 2020-08-04 | 中国银行股份有限公司 | 测试语料生成方法、装置及电子设备 |
CN111563375A (zh) * | 2020-05-07 | 2020-08-21 | 北京捷通华声科技股份有限公司 | 一种文本生成方法和装置 |
CN112668339A (zh) * | 2020-12-23 | 2021-04-16 | 北京有竹居网络技术有限公司 | 语料样本确定方法、装置、电子设备及存储介质 |
CN112668281A (zh) * | 2020-12-25 | 2021-04-16 | 平安科技(深圳)有限公司 | 基于模板的语料自动化扩充方法、装置、设备及介质 |
CN112686028A (zh) * | 2020-12-25 | 2021-04-20 | 掌阅科技股份有限公司 | 基于相似词的文本翻译方法、计算设备及计算机存储介质 |
CN113554107A (zh) * | 2021-07-28 | 2021-10-26 | 工银科技有限公司 | 语料集的生成方法、装置、设备、存储介质和程序产品 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170091188A1 (en) * | 2015-09-28 | 2017-03-30 | International Business Machines Corporation | Presenting answers from concept-based representation of a topic oriented pipeline |
CN107832374A (zh) * | 2017-10-26 | 2018-03-23 | 平安科技(深圳)有限公司 | 标准知识库的构建方法、电子装置及存储介质 |
CN108021551A (zh) * | 2017-10-27 | 2018-05-11 | 北京捷通华声科技股份有限公司 | 一种语料扩展方法及装置 |
CN108287822A (zh) * | 2018-01-23 | 2018-07-17 | 北京容联易通信息技术有限公司 | 一种中文相似问题生成系统与方法 |
CN108509409A (zh) * | 2017-02-27 | 2018-09-07 | 芋头科技(杭州)有限公司 | 一种自动生成语义相近句子样本的方法 |
CN109800219A (zh) * | 2019-01-18 | 2019-05-24 | 广东小天才科技有限公司 | 一种语料清洗的方法和装置 |
CN109871534A (zh) * | 2019-01-10 | 2019-06-11 | 北京海天瑞声科技股份有限公司 | 中英混合语料的生成方法、装置、设备及存储介质 |
-
2019
- 2019-06-28 CN CN201910577164.3A patent/CN110334197A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170091188A1 (en) * | 2015-09-28 | 2017-03-30 | International Business Machines Corporation | Presenting answers from concept-based representation of a topic oriented pipeline |
CN108509409A (zh) * | 2017-02-27 | 2018-09-07 | 芋头科技(杭州)有限公司 | 一种自动生成语义相近句子样本的方法 |
CN107832374A (zh) * | 2017-10-26 | 2018-03-23 | 平安科技(深圳)有限公司 | 标准知识库的构建方法、电子装置及存储介质 |
CN108021551A (zh) * | 2017-10-27 | 2018-05-11 | 北京捷通华声科技股份有限公司 | 一种语料扩展方法及装置 |
CN108287822A (zh) * | 2018-01-23 | 2018-07-17 | 北京容联易通信息技术有限公司 | 一种中文相似问题生成系统与方法 |
CN109871534A (zh) * | 2019-01-10 | 2019-06-11 | 北京海天瑞声科技股份有限公司 | 中英混合语料的生成方法、装置、设备及存储介质 |
CN109800219A (zh) * | 2019-01-18 | 2019-05-24 | 广东小天才科技有限公司 | 一种语料清洗的方法和装置 |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11461561B2 (en) | 2019-10-25 | 2022-10-04 | Beijing Xiaomi Intelligent Technology Co., Ltd. | Method and device for information processing, and storage medium |
CN110781689A (zh) * | 2019-10-25 | 2020-02-11 | 北京小米智能科技有限公司 | 信息处理方法、装置及存储介质 |
CN110879802A (zh) * | 2019-10-28 | 2020-03-13 | 同济大学 | 一种日志模式提取及匹配方法 |
CN111079441A (zh) * | 2019-12-16 | 2020-04-28 | 深圳市三宝创新智能有限公司 | 一种知音语义系统 |
CN111191032A (zh) * | 2019-12-24 | 2020-05-22 | 深圳追一科技有限公司 | 语料扩充方法、装置、计算机设备和存储介质 |
CN111191032B (zh) * | 2019-12-24 | 2023-09-12 | 深圳追一科技有限公司 | 语料扩充方法、装置、计算机设备和存储介质 |
CN111488735A (zh) * | 2020-04-09 | 2020-08-04 | 中国银行股份有限公司 | 测试语料生成方法、装置及电子设备 |
CN111488735B (zh) * | 2020-04-09 | 2023-10-27 | 中国银行股份有限公司 | 测试语料生成方法、装置及电子设备 |
CN111241813A (zh) * | 2020-04-29 | 2020-06-05 | 同盾控股有限公司 | 语料扩展方法、装置、设备及介质 |
CN111563375A (zh) * | 2020-05-07 | 2020-08-21 | 北京捷通华声科技股份有限公司 | 一种文本生成方法和装置 |
CN111563375B (zh) * | 2020-05-07 | 2021-04-09 | 北京捷通华声科技股份有限公司 | 一种文本生成方法和装置 |
CN112668339A (zh) * | 2020-12-23 | 2021-04-16 | 北京有竹居网络技术有限公司 | 语料样本确定方法、装置、电子设备及存储介质 |
WO2022135080A1 (zh) * | 2020-12-23 | 2022-06-30 | 北京有竹居网络技术有限公司 | 语料样本确定方法、装置、电子设备及存储介质 |
CN112686028A (zh) * | 2020-12-25 | 2021-04-20 | 掌阅科技股份有限公司 | 基于相似词的文本翻译方法、计算设备及计算机存储介质 |
CN112668281B (zh) * | 2020-12-25 | 2023-09-22 | 平安科技(深圳)有限公司 | 基于模板的语料自动化扩充方法、装置、设备及介质 |
CN112668281A (zh) * | 2020-12-25 | 2021-04-16 | 平安科技(深圳)有限公司 | 基于模板的语料自动化扩充方法、装置、设备及介质 |
CN113554107A (zh) * | 2021-07-28 | 2021-10-26 | 工银科技有限公司 | 语料集的生成方法、装置、设备、存储介质和程序产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110334197A (zh) | 语料处理方法及相关装置 | |
US11361751B2 (en) | Speech synthesis method and device | |
Fantinuoli | Speech recognition in the interpreter workstation | |
Watts | Unsupervised learning for text-to-speech synthesis | |
JP2003036093A (ja) | 音声入力検索システム | |
Vidal et al. | Computer-assisted translation using speech recognition | |
CN105404621A (zh) | 一种用于盲人读取汉字的方法及系统 | |
Sangeetha et al. | Speech translation system for english to dravidian languages | |
Ostrogonac et al. | Morphology-based vs unsupervised word clustering for training language models for Serbian | |
Lin et al. | Hierarchical prosody modeling for Mandarin spontaneous speech | |
Wutiwiwatchai et al. | Thai text-to-speech synthesis: a review | |
Ronzhin et al. | Survey of russian speech recognition systems | |
CN111696525A (zh) | 一种基于Kaldi的中文语音识别声学模型构建方法 | |
Gu et al. | Concept-based speech-to-speech translation using maximum entropy models for statistical natural concept generation | |
Chen et al. | A statistics-based pitch contour model for Mandarin speech | |
NithyaKalyani et al. | Speech summarization for tamil language | |
KR102338563B1 (ko) | 영어 학습을 위한 음성 시각화 시스템 및 그 방법 | |
JP2016080981A (ja) | 応答生成装置、応答生成方法及び応答生成プログラム | |
CN115019787A (zh) | 一种交互式同音异义词消歧方法、系统、电子设备和存储介质 | |
Sarkar et al. | Modeling pauses for synthesis of storytelling style speech using unsupervised word features | |
Chen et al. | A Mandarin Text-to-Speech System | |
JP5888723B2 (ja) | 発音辞書作成装置、発音辞書の生産方法、およびプログラム | |
JP2000305930A (ja) | 言語変換規則作成装置、言語変換装置及びプログラム記録媒体 | |
Bowden | A Review of Textual and Voice Processing Algorithms in the Field of Natural Language Processing | |
Belz | Corpus-driven generation of weather forecasts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191015 |
|
RJ01 | Rejection of invention patent application after publication |