CN113449511A - 文本处理的方法、装置、设备和存储介质 - Google Patents

文本处理的方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN113449511A
CN113449511A CN202010212928.1A CN202010212928A CN113449511A CN 113449511 A CN113449511 A CN 113449511A CN 202010212928 A CN202010212928 A CN 202010212928A CN 113449511 A CN113449511 A CN 113449511A
Authority
CN
China
Prior art keywords
text
word
words
importance
module configured
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010212928.1A
Other languages
English (en)
Other versions
CN113449511B (zh
Inventor
王文华
吕中厚
刘焱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Priority to CN202010212928.1A priority Critical patent/CN113449511B/zh
Publication of CN113449511A publication Critical patent/CN113449511A/zh
Application granted granted Critical
Publication of CN113449511B publication Critical patent/CN113449511B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本公开的实施例提供了文本处理的方法、装置、设备和计算机可读存储介质,涉及自然语言处理领域。该方法包括:接收第一文本,第一文本包括一组词;从第一文本的一组词中确定第一词,第一词在第一文本中的重要度超过阈值;基于第一文本和与第一词相关联的第二词,来生成第二文本,第二文本的合理程度高于第一文本,合理程度指示文本的语义或语法的合理性。基于这样的方式,能够有效地防御针对文本的对抗样本攻击。

Description

文本处理的方法、装置、设备和存储介质
技术领域
本公开的实施例主要涉及计算机技术领域,并且更具体地,涉及用于文本处理的方法、装置、设备以及计算机可读存储介质。
背景技术
随着计算机技术的发展,自然语言处理(NLP)技术已经获得越来越多的应用。例如,一些公司提供基于NLP的情感分析服务来对文本进行自动地情感分析。这能够帮助使用者理解用户消费习惯、舆情监控和分析热点话题,为企业提供有力的决策支持。然而,针对自然语言处理的对抗样本攻击能够导致自然语言处理技术作出错误的判断。
发明内容
根据本公开的实施例,提供了一种文本处理的方案。
在本公开的第一方面中,提供了一种文本处理的方法。该方法包括:接收第一文本,第一文本包括一组词;从第一文本的一组词中确定第一词,第一词在第一文本中的重要度超过阈值;基于第一文本和与第一词相关联的第二词,来生成第二文本,第二文本的合理程度高于第一文本,合理程度指示文本的语义或语法的合理性。
在本公开的第二方面中,提供了一种用于文本处理的装置。该装置包括:接收模块,被配置为接收第一文本,第一文本包括一组词;第一词确定模块,被配置为从第一文本的一组词中确定第一词,第一词在第一文本中的重要度超过阈值;第二文本生成模块,被配置为基于第一文本和与第一词相关联的第二词,来生成第二文本,第二文本的合理程度高于第一文本,合理程度指示文本的语义或语法的合理性。
在本公开的第三方面中,提供了一种电子设备,包括一个或多个处理器;以及存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现根据本公开的第一方面的方法。
在本公开的第四方面中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现根据本公开的第一方面的方法。
应当理解,发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。
附图说明
结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标注表示相同或相似的元素,其中:
图1示出了本公开的多个实施例能够在其中实现的示例环境的示意图;
图2示出了根据本公开的一些实施例的文本处理的示例方法的流程图;
图3A示出了根据本公开的一实施例的确定重要度的示例方法的流程图;
图3B示出了根据本公开的另一实施例的确定重要度的示例方法的流程图;
图3C示出了根据本公开的又一实施例的确定重要度的示例方法的流程图;
图4示出了根据本公开的一些实施例的文本处理的装置的示意性结构框图;以及
图5示出了能够实施本公开的多个实施例的计算设备的框图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
在本公开的实施例的描述中,术语“合理程度”是指文本语义或语法上的合理程度。例如,“这个房间太小”比“这个房间汰小”具有更高的合理程度。文本的“合理程度”录入可以通过语言模型(例如,DNN语言模型)来确定。
如前面提及的,对抗样本攻击能够极大的影响基于NLP的文本分析模型的准确度。以情感分析模型为例,在酒店评论、各电商数据等多个中文数据集上测试,目前的情感分类服务准确率通常可达80%。然而,在对抗样本攻击下,该准确率将下降至50%以下。这样的对抗样本攻击通常是在输入样本上添加人类较难察觉的微小扰动,但这样的样本却能诱导模型做出错误判断。目前,图像领域的对抗样本攻击和防御技术已经相对成熟,如何处理针对文本的对抗样本攻击已经成为当前关注的焦点。
根据本公开的各种实施例,提供了一种文本处理的方案。在本公开的实施例中,包括一组词的第一文本被接收,并且从第一文本的一组词中确定重要度超过阈值的第一词。随后,利用与第一词相关联的第二词,来生成第二文本,使得第二文本的合理程度高于第一文本。换言之,第二文本比第一文本在语义或语法方面具有较高的合理性。基于这样的方式,能够有效地消除对抗样本的攻击。
以下将参照附图来具体描述本公开的实施例。图1示出了本公开的多个实施例能够在其中实现的示例环境100的示意图。如图1所示,环境100包括计算设备120,其被配置为接收第一文本110,并且基于第一文本110生成第二文本130,从而防御对抗样本攻击。
在一些实施例中,计算设备120可以是请求文本分析服务的客户端设备,其在向提供文本分析服务的服务器提交需要分析的第一文本110前,对第一文本110进行处理动作,以生成消除对抗样本攻击的第二文本130,从而提高文本分析结果的准确性。
在另一些实施例中,计算设备120还可以是提供文本分析服务的服务器设备,其在接收到客户端所提交的待分析的第一文本110后,先对第一文本110进行预处理动作,以生成消除对抗样本攻击的第二文本130。随后,计算设备120可以利用文本分析模型来处理第二文本130,从而提供更为准确的文本分析结果。
应当理解,本公开所讨论的文本分析服务可以包括但不仅限于词法分析、句法分析、情感分析、短文本相似度计算、文本分类、观点提取等。本公开中讨论的具体服务仅是示例性的,本公开不旨在对此进行限制。
以下将参考图2至图3来描述生成第二文本130的过程。图2示出了根据本公开的一些实施例的文本处理的示例方法200的流程图。该方法200可以在图1的计算设备120处实施。
如图2所示,在框202,计算设备120接收第一文本110,其中第一文本110包括一组词。如上文参考图1所讨论的,在一些实施例中,计算设备120可以是用于提交待分析的第一文本110的客户端设备。备选地,计算设备120也可以是通过有线或无线网络从客户端接收第一文本110的服务器设备。
在一些实施例中,第一文本110可能是受到对抗样本攻击的文本。例如,第一文本110可能在原始文本的基础上被修改成一些不易被人察觉的对抗样本,从而影响文本分析模型的准确性。作为示例,第一文本110例如可以是用户评价,以下给出了第一文本110的示例:
“酒店的门面实在是汰小。前台服务员的态度也just so so。我住的是经济间,和他们介绍的相甚差远,估计也就有7平米的样子,经济间的布局bu好,过于紧促,洗澡间太擁擠了,两个人都站不下,马桶脏x兮兮,走廊黒漆漆,隔音效果不好,服务太太差了,9958,MM!”
从以上示例能够看到,第一文本110应用了同音字替换、英文替换、拼音替换、形近字替换、网络用语替换、繁体字替换、随机字符插入、叠字插入、词内位置互换等对抗样本生成方法,这可能会导致情感分析模型将第一文本110错误地认定为正向情感。
在框204,计算设备120从第一文本110的一组词中确定第一词,第一词在第一文本110中的重要度超过阈值。在一些实施例中,计算设备120可以通过任何适当的分词技术来从第一文本110来中确定一组词。例如,以上第一文本110的示例由60个词所组成。
计算设备120可以根据一组词中各词的重要度来确定第一词。具体地,计算设备120可以首先确定第一文本120中的一组词的重要度,并基于重要度,从第一文本110中确定第一词。
在一些实施例利,重要度可以指示该词对于待应用的文本分析模型的结果的影响程度。具体地,图3A示出了根据本公开实施例的确定重要度的示例方法300A的流程图。
如图3A所示,在框302,计算设备120可以确定将第一文本110应用于文本分析模型的第一结果。例如,以文本分析模型为情感分析模型为例。例如,文本分析模型输出的针对第一文本110的结果为“正向情感(x1),负向情感(y1)”。例如,当y1大于x1时,这表示文本分析模型将认为第一文本110分类为“负向情感”。
在框304,计算设备120可以将一组词中的每个词替换为预定的词以生成第三文本。以第一文本110中的“汰小”为例,计算设备120可以将其替换为一个随机的英文字母,例如“r”,使得第三文本为“酒店的门面实在是r。……”
在框306,计算设备120可以确定将第三文本应用于文本分析模型的第二结果。计算设备120例如可以将修改后的第三文本输入到文本分析模型,例如得到的预测结果为:“正向情感(x2),负向情感(y2)”。
在框308,计算设备120可以基于第一结果与第二结果的差异来确定重要度。在一些实施例中,计算设备120例如可以基于第一结果和第二结果之间的最大log似然代价(NLL_loss),并将该结果确作为词的重要度。例如,当将“汰小”替换为随机的字母“r”后,第二结果与第一结果差异较大时,此时,表明“汰小”依词对于该文本分析模型的结果影响较大,也即,“汰小”一词的重要度较大。
在一些实施例中,重要度也可以指示词出现在第一文本110中的合理程度。具体地,图3B示出了根据本公开实施例的确定重要度的示例方法300B的流程图。
在框312,例如,计算设备120可以利用语言分析模型处理第一文本,以确定一组词出现于第一文本110中的概率。例如,计算设备120可以利用本领域任何适当的语言分析模型(例如,DNN语言模型)来确定第一文本110中各词出现在第一文本110中的概率。例如,“汰小”一词的概率可以被确定为“7.28e-8”。
在框314,例如,计算设备120可以基于概率,确定一组词的重要度。在一些实施例中,计算设备120可以基于所确定的概率的相反数来确定重要度,也即,概率越高的词表示该词出现在第一文本110中越合理,其重要程度也就越低。相反,概率越低的词标识该词出现在第一文本110中不合理,其重要程度也就越高。
在一些实施例利,重要度还可以指示词在第一文本110和训练样本中的分布差异。具体地,图3B示出了根据本公开实施例的确定重要度的示例方法300B的流程图。
在框322,计算设备120可以确定一组词在第一文本110中的第一词频。例如,对于“汰小”一词,计算设备120可以确定其词频为1。
在框324,计算设备120可以基于一组词在训练语料中的第二词频。例如,计算设备120还可以计算逆向文件频率IDF,例如“汰小”一词的IDF值例如可以被确定为较小。
在框326,计算设备120可以基于第一词频和第二词频,确定一组词的重要度,其中重要度与第一词频成正比并且与第二词频成反比。具体地,计算设备120例如可以基于TF-IDF来确定重要度,以使得重要度能够指示该词在第一文本110中的词频与在训练语料中的词频的差异。该值越大,则指示该词的重要度越高。
在一些实施例中,计算设备120还可以基于以上所讨论的三种可能示例中的两者或者三者的加权和来确定最终的重要度。应当理解,可以根据实际需要来动态地调整相应的权重。
继续参考图2,在框206,计算设备120基于第一文本110和与第一词相关联的第二词来生成第二文本。第二文本的合理程度高于第一文本。
在一些实施例中,计算设备120可以通过从第一词中删除特定字符来确定第二词。例如,继续先前的示例,计算设备120例如可以确定第一词为“脏x兮兮”,计算设备120可以通过删除第一词中的非中文字符来获得第二词“脏兮兮”。对于“不好”这一示例也是类似的,可以从“不好”一词中删除空格来获得第二词“不好”。
在一些实施例中,计算设备120可以通过调整第一词中汉字的顺序来确定第二词。例如,计算设备120可以调整词“相甚差远”中汉字的顺序,来获得第二词“相差甚远”。
在一些实施例中,计算设备120可以将第一词中的汉字替换为同音字来确定第二词。例如,计算设备120可以将“汰小”中的“汰”转换为同音字“太”,从而确定第二词“太小”。
在一些实施例中,计算设备120可以将第一词中的拼音字符替换为汉字。例如,计算设备120可以将“bu好”中的“bu”替换为汉字“不”,从而确定第二词“不好”。
在一些实施例中,计算设备120可以将第一词中的英文词替换为汉字。例如,计算设备120可以将“Just so so”通过查词典的方式替换为“一般”。
在一些实施例中,计算设备120可以将第一词中的繁体字替换为简体字。例如,计算设备120可以将词“擁擠”替换为简体字“拥挤”。
在一些实施例中,计算设备120可以将第一词中的网络词替换为对应的标准词。例如,计算设备120可以通过查询网络词替换表,以将“9958”替换为“救救我吧”。
在一些实施例中,计算设备120可以将第一词中的汉字替换为形近字。例如,计算设备120可以将“黒漆漆”替换为“黑漆漆”。
应当理解,以上给出了计算设备120进行词语替换的示例,计算设备120可以针对所确定的第一词确定其是否适用于以上中的一项或者多项替换规则。
在一些实施例中,对于每一种替换所得到的中间文本,计算设备120可以确定中间文本的合理程度是否高于第一文本110的合理程度。只有在合理程度高于第一文本110时,计算设备120才确定对第一词进行该替换。在一些实施例中,计算设备120可以利用语言分析模型来第一文本110和中间文本的合理程度。例如,可以利用语言分析模型所确定的文本的困惑度来指示合理程度,困惑度越高则表示该文本语法或者语义上越不合理。
例如,将“汰小”替换为“太小”将使得文本更为合理,将替换将被保留。相反,将“差相甚远”替换为“差相远甚”将使得文本更不合理,这种替换将不被保留。
在一些实施例中,对于单个词可能存在多种替换候选的情况,计算设备120例如可以选择使得替换后的文本的合理程度最高的替换,从而生成第二文本120。
通过上文所讨论的方法,本公开的实施例可以检测出可能的对抗样本攻击中重要程度较高的词,并通过将其进行替换获得语义或语法上更为合理的文本。通过这样的方式,可以有效地防御针对自然语言处理的对抗样本攻击。
在一些实施例中,计算设备120可以基于文本分析模型获取与第二文本相关联的分析结果。如上文所讨论的,文本分析包括但不仅限于词法分析、句法分析、情感分析、短文本相似度计算、文本分类、观点提取等。计算设备120可以通过将替换后更合理的第二文本120输入到文本分析模型来获取分析结果。附加地,计算设备120例如还可以向用户提供分析结果。
在一些实施例中,计算设备120还可以替换第一文本110中重要度高于阈值的多个词。具体地,计算设备120可以从第二文本120中确定第三词,第三词在第一文本110中的重要度超过阈值;例如,计算设备120可以首先替换了重要度最高的“汰小”后,还可以选择余下重要度最高的“just so so”作为第三词。
随后,计算设备120可以基于第二文本和与第三词相关联的第四词,来生成第四文本。例如,计算设备120可以将“just so so”替换为“一般”来生成第四文本。计算设备120随后可以将第四文本应用于文本分析模型,以得到分析结果。
应当理解,计算设备120可以迭代地执行词的替代直至替换后的文本中不包括重要度超过阈值的词。备选地,计算设备120可以按照重要度的排序依次替换预定数目的词。
例如,对于先前的示例,计算设备120可以替换了其中的‘汰小’,‘just so so’,‘相甚差远’,‘bu好’,‘紧促’,‘擁擠’、,‘脏x兮兮’,‘黒漆漆’,‘不好’,‘太太差’和‘9958’,并获得了以下文本。
“酒店的门面实在是太小。前台服务员的态度也一般。我住的是经济间,和他们介绍的相差甚远,估计也就有7平米的样子,经济间的布局不好,过于紧凑,洗澡间太拥挤了,两个人都站不下,马桶脏兮兮,走廊黑漆漆,隔音效果不好,服务太差了,救救我吧,MM!”
随后,计算设备120例如可以利用文本分析模型来处理替换后的文本,从而获得准确的分析结果。基于这样的方式,可以有效地防御对抗样本的攻击。
本公开的实施例还提供了用于实现上述方法或过程的相应装置。图4示出了根据本公开的一些实施例的文本分析的装置400的示意性结构框图。该装置400可以在例如图1的计算设备120处实施。
如图4所示,装置400可以包括接收模块410,被配置为接收第一文本,第一文本包括一组词。装置400还包括第一词确定模块420,被配置为从第一文本的一组词中确定第一词,第一词在第一文本中的重要度超过阈值。此外,装置400还包括第二文本生成模块430,被配置为基于第一文本和与第一词相关联的第二词,来生成第二文本,第二文本的合理程度高于第一文本,合理程度指示文本的语义或语法的合理性。
在一些实施例中,第一词确定模块410包括:重要度确定模块,被配置为确定第一文本中的一组词的重要度;以及第一确定模块,被配置为基于重要度,从第一文本中确定第一词。
在一些实施例中,重要度确定模块包括:第一结果确定模块,被配置为确定将第一文本应用于文本分析模型的第一结果;替换模块,被配置为将一组词中的每个词替换为预定的词以生成第三文本;第二结果确定模块,被配置为确定将第三文本应用于文本分析模型的第二结果;以及第二确定模块,被配置为基于第一结果与第二结果的差异来确定重要度。
在一些实施例中,重要度确定模块包括:第一处理模块,被配置为利用语言分析模型处理第一文本,以确定一组词出现于第一文本中的概率;以及第三确定模块,被配置为基于概率,确定一组词的重要度。
在一些实施例中,重要度确定模块包括:第一词频确定模块,被配置为确定一组词在第一文本中的第一词频;第二词频确定模块,被配置为确定一组词在训练语料中的第二词频;以及第四确定模块,被配置为基于第一词频和第二词频,确定一组词的重要度,重要度与第一词频成正比并且与第二词频成反比。
在一些实施例中,装置400还包括:第二词确定模块,被配置为通过以下中的至少一项来确定第二词:从第一词中删除特定字符;调整第一词中汉字的顺序;将第一词中的汉字替换为同音字;将第一词中的拼音字符替换为汉字;将第一词中的英文词替换为汉字;将第一词中的繁体字替换为简体字;将第一词中的网络词替换为对应的标准词;或者将第一词中的汉字替换为形近字。
在一些实施例中,装置400还包括:分析结果获取模块,被配置为基于文本分析模型,获取与第二文本相关联的分析结果;以及提供模块,被配置为提供分析结果。
在一些实施例中,分析结果获取模块包括:第三词确定模块,被配置为从第二文本中确定第三词,第三词在第一文本中的重要度超过阈值;第四文本生成模块,被配置为基于第二文本和与第三词相关联的第四词,来生成第四文本;以及模型应用模块,被配置为将第四文本应用于文本分析模型,以得到分析结果。
装置400中所包括的单元可以利用各种方式来实现,包括软件、硬件、固件或其任意组合。在一些实施例中,一个或多个单元可以使用软件和/或固件来实现,例如存储在存储介质上的机器可执行指令。除了机器可执行指令之外或者作为替代,装置400中的部分或者全部单元可以至少部分地由一个或多个硬件逻辑组件来实现。作为示例而非限制,可以使用的示范类型的硬件逻辑组件包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD),等等。
图4中所示的这些单元可以部分或者全部地实现为硬件模块、软件模块、固件模块或者其任意组合。特别地,在某些实施例中,上文描述的流程、方法或过程可以由存储系统或与存储系统对应的主机或独立于存储系统的其它计算设备中的硬件来实现。
图5示出了可以用来实施本公开的实施例的示例设备500的示意性框图。设备500可以用于实现计算设备120。如图所示,设备500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的计算机程序指令或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序指令,来执行各种适当的动作和处理。在RAM 503中,还可存储设备500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
设备500中的多个部件连接至I/O接口505,包括:输入单元506,例如键盘、鼠标等;输出单元507,例如各种类型的显示器、扬声器等;存储单元508,例如磁盘、光盘等;以及通信单元509,例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理单元501执行上文所描述的各个方法和处理,例如方法200、300A、300B和/或300C。例如,在一些实施例中,方法200、300A、300B和/或300C可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元508。在一些实施例中,计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM 503并由CPU 501执行时,可以执行上文描述的方法200、300A、300B和/或300C的一个或多个步骤。备选地,在其他实施例中,CPU 801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法200、300A、300B和/或300C。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
此外,虽然采用特定次序描绘了各操作,但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行,或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims (18)

1.一种文本处理的方法,包括:
接收第一文本,所述第一文本包括一组词;
从所述第一文本的所述一组词中确定第一词,所述第一词在所述第一文本中的重要度超过阈值;以及
基于所述第一文本和与所述第一词相关联的第二词,来生成第二文本,所述第二文本的合理程度高于所述第一文本,所述合理程度指示文本的语义或语法的合理性。
2.根据权利要求1所述的方法,其中确定所述第一词包括:
确定所述第一文本中的所述一组词的重要度;以及
基于所述重要度,从所述第一文本中确定所述第一词。
3.根据权利要求2所述的方法,其中确定所述一组词的重要度包括:
确定将所述第一文本应用于文本分析模型的第一结果;
将所述一组词中的每个词替换为预定的词以生成第三文本;
确定将所述第三文本应用于所述文本分析模型的第二结果;以及
基于所述第一结果与所述第二结果的差异来确定所述重要度。
4.根据权利要求2所述的方法,其中确定所述一组词的重要度包括:
利用语言分析模型处理所述第一文本,以确定所述一组词出现于所述第一文本中的概率;以及
基于所述概率,确定所述一组词的所述重要度。
5.根据权利要求2所述的方法,其中确定所述一组词的重要度包括:
确定所述一组词在所述第一文本中的第一词频;
基于所述一组词在训练语料中的第二词频;以及
基于所述第一词频和所述第二词频,确定所述一组词的所述重要度,所述重要度与所述第一词频成正比并且与所述第二词频成反比。
6.根据权利要求1-5中任一项所述的方法,还包括:通过以下中的至少一项来确定所述第二词:
从所述第一词中删除特定字符;
调整所述第一词中汉字的顺序;
将所述第一词中的汉字替换为同音字;
将所述第一词中的拼音字符替换为汉字;
将所述第一词中的英文词替换为汉字;
将所述第一词中的繁体字替换为简体字;
将所述第一词中的网络词替换为对应的标准词;或者
将所述第一词中的汉字替换为形近字。
7.根据权利要求1-5中任一项所述的方法,还包括:
基于文本分析模型,获取与所述第二文本相关联的分析结果;以及
提供所述分析结果。
8.根据权利要求7所述的方法,其中获取所述分析结果包括:
从所述第二文本中确定第三词,所述第三词在所述第一文本中的重要度超过阈值;
基于所述第二文本和与所述第三词相关联的第四词,来生成第四文本;以及
将所述第四文本应用于所述文本分析模型,以得到所述分析结果。
9.一种文本处理的装置,包括:
接收模块,被配置为接收第一文本,所述第一文本包括一组词;
第一词确定模块,被配置为从所述第一文本的所述一组词中确定第一词,所述第一词在所述第一文本中的重要度超过阈值;以及
第二文本生成模块,被配置为基于所述第一文本和与所述第一词相关联的第二词,来生成第二文本,所述第二文本的合理程度高于所述第一文本,所述合理程度指示文本的语义或语法的合理性。
10.根据权利要求9所述的装置,其中所述第一词确定模块包括:
重要度确定模块,被配置为确定所述第一文本中的所述一组词的重要度;以及
第一确定模块,被配置为基于所述重要度,从所述第一文本中确定所述第一词。
11.根据权利要求10所述的装置,其中所述重要度确定模块包括:
第一结果确定模块,被配置为确定将所述第一文本应用于文本分析模型的第一结果;
替换模块,被配置为将所述一组词中的每个词替换为预定的词以生成第三文本;
第二结果确定模块,被配置为确定将所述第三文本应用于所述文本分析模型的第二结果;以及
第二确定模块,被配置为基于所述第一结果与所述第二结果的差异来确定所述重要度。
12.根据权利要求10所述的装置,其中所述重要度确定模块包括:
第一处理模块,被配置为利用语言分析模型处理所述第一文本,以确定所述一组词出现于所述第一文本中的概率;以及
第三确定模块,被配置为基于所述概率,确定所述一组词的所述重要度。
13.根据权利要求10所述的装置,其中所述重要度确定模块包括:
第一词频确定模块,被配置为确定所述一组词在所述第一文本中的第一词频;
第二词频确定模块,被配置为确定所述一组词在训练语料中的第二词频;以及
第四确定模块,被配置为基于所述第一词频和所述第二词频,确定所述一组词的所述重要度,所述重要度与所述第一词频成正比并且与所述第二词频成反比。
14.根据权利要求9-12中任一项所述的装置,还包括:第二词确定模块,被配置为通过以下中的至少一项来确定所述第二词:
从所述第一词中删除特定字符;
调整所述第一词中汉字的顺序;
将所述第一词中的汉字替换为同音字;
将所述第一词中的拼音字符替换为汉字;
将所述第一词中的英文词替换为汉字;
将所述第一词中的繁体字替换为简体字;
将所述第一词中的网络词替换为对应的标准词;或者
将所述第一词中的汉字替换为形近字。
15.根据权利要求9-12中任一项所述的装置,还包括:
分析结果获取模块,被配置为基于文本分析模型,获取与所述第二文本相关联的分析结果;以及
提供模块,被配置为提供所述分析结果。
16.根据权利要求15所述的装置,其中所述分析结果获取模块包括:
第三词确定模块,被配置为从所述第二文本中确定第三词,所述第三词在所述第一文本中的重要度超过阈值;
第四文本生成模块,被配置为基于所述第二文本和与所述第三词相关联的第四词,来生成第四文本;以及
模型应用模块,被配置为将所述第四文本应用于所述文本分析模型,以得到所述分析结果。
17.一种电子设备,所述设备包括:
一个或多个处理器;以及
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一项所述的方法。
18.一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如权利要求1-8中任一项所述的方法。
CN202010212928.1A 2020-03-24 2020-03-24 文本处理的方法、装置、设备和存储介质 Active CN113449511B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010212928.1A CN113449511B (zh) 2020-03-24 2020-03-24 文本处理的方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010212928.1A CN113449511B (zh) 2020-03-24 2020-03-24 文本处理的方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN113449511A true CN113449511A (zh) 2021-09-28
CN113449511B CN113449511B (zh) 2023-06-09

Family

ID=77806449

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010212928.1A Active CN113449511B (zh) 2020-03-24 2020-03-24 文本处理的方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN113449511B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080091405A1 (en) * 2006-10-10 2008-04-17 Konstantin Anisimovich Method and system for analyzing various languages and constructing language-independent semantic structures
US20130110501A1 (en) * 2010-05-20 2013-05-02 Nec Corporation Perplexity calculation device
US20150347393A1 (en) * 2014-05-30 2015-12-03 Apple Inc. Exemplar-based natural language processing
US20160110343A1 (en) * 2014-10-21 2016-04-21 At&T Intellectual Property I, L.P. Unsupervised topic modeling for short texts
CN106802940A (zh) * 2016-12-30 2017-06-06 东软集团股份有限公司 一种计算文本主题模型的方法及装置
US20190050396A1 (en) * 2016-08-31 2019-02-14 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus and device for recognizing text type
CN109684634A (zh) * 2018-12-17 2019-04-26 北京百度网讯科技有限公司 情感分析方法、装置、设备及存储介质
CN109753636A (zh) * 2017-11-01 2019-05-14 阿里巴巴集团控股有限公司 机器处理及文本纠错方法和装置、计算设备以及存储介质
CN109858023A (zh) * 2019-01-04 2019-06-07 北京车慧科技有限公司 一种语句纠错装置
CN110134952A (zh) * 2019-04-29 2019-08-16 华南师范大学 一种错误文本拒识方法、装置及存储介质
CN110162753A (zh) * 2018-11-08 2019-08-23 腾讯科技(深圳)有限公司 用于生成文本模板的方法、装置、设备和计算机可读介质
CN110276077A (zh) * 2019-06-25 2019-09-24 上海应用技术大学 中文纠错的方法、装置及设备
CN110717327A (zh) * 2019-09-29 2020-01-21 北京百度网讯科技有限公司 标题生成方法、装置、电子设备和存储介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080091405A1 (en) * 2006-10-10 2008-04-17 Konstantin Anisimovich Method and system for analyzing various languages and constructing language-independent semantic structures
US20130110501A1 (en) * 2010-05-20 2013-05-02 Nec Corporation Perplexity calculation device
US20150347393A1 (en) * 2014-05-30 2015-12-03 Apple Inc. Exemplar-based natural language processing
US20160110343A1 (en) * 2014-10-21 2016-04-21 At&T Intellectual Property I, L.P. Unsupervised topic modeling for short texts
US20190050396A1 (en) * 2016-08-31 2019-02-14 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus and device for recognizing text type
CN106802940A (zh) * 2016-12-30 2017-06-06 东软集团股份有限公司 一种计算文本主题模型的方法及装置
CN109753636A (zh) * 2017-11-01 2019-05-14 阿里巴巴集团控股有限公司 机器处理及文本纠错方法和装置、计算设备以及存储介质
CN110162753A (zh) * 2018-11-08 2019-08-23 腾讯科技(深圳)有限公司 用于生成文本模板的方法、装置、设备和计算机可读介质
CN109684634A (zh) * 2018-12-17 2019-04-26 北京百度网讯科技有限公司 情感分析方法、装置、设备及存储介质
CN109858023A (zh) * 2019-01-04 2019-06-07 北京车慧科技有限公司 一种语句纠错装置
CN110134952A (zh) * 2019-04-29 2019-08-16 华南师范大学 一种错误文本拒识方法、装置及存储介质
CN110276077A (zh) * 2019-06-25 2019-09-24 上海应用技术大学 中文纠错的方法、装置及设备
CN110717327A (zh) * 2019-09-29 2020-01-21 北京百度网讯科技有限公司 标题生成方法、装置、电子设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
阮光册等: "面向词权重的主题识别应用研", 《情报理论与实践》, pages 144 - 149 *

Also Published As

Publication number Publication date
CN113449511B (zh) 2023-06-09

Similar Documents

Publication Publication Date Title
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
Morita et al. Morphological analysis for unsegmented languages using recurrent neural network language model
CN110442878B (zh) 翻译方法、机器翻译模型的训练方法、装置及存储介质
JP5901001B1 (ja) 音響言語モデルトレーニングのための方法およびデバイス
US10789431B2 (en) Method and system of translating a source sentence in a first language into a target sentence in a second language
CN109684634B (zh) 情感分析方法、装置、设备及存储介质
CN108595629B (zh) 用于答案选择系统的数据处理方法及应用
JP5379138B2 (ja) 領域辞書の作成
CN109558604B (zh) 一种机器翻译方法、装置、电子设备及存储介质
Das et al. Part of speech tagging in odia using support vector machine
CN111079029B (zh) 敏感账号的检测方法、存储介质和计算机设备
CN111325038B (zh) 翻译训练数据生成方法、装置、计算机设备及存储介质
US20130054224A1 (en) Method and system for enhancing text alignment between a source language and a target language during statistical machine translation
US20230075614A1 (en) Automatically identifying multi-word expressions
CN111783443A (zh) 文本扰动检测方法、扰动还原方法、扰动处理方法和装置
US10049108B2 (en) Identification and translation of idioms
US10354013B2 (en) Dynamic translation of idioms
CN116108157B (zh) 训练文本生成模型的方法、文本生成方法及装置
CN110472241B (zh) 生成去冗余信息句向量的方法及相关设备
CN113449511B (zh) 文本处理的方法、装置、设备和存储介质
CN111178038B (zh) 一种基于潜在语义分析的文档相似度识别方法及装置
CN112735465B (zh) 无效信息确定方法、装置、计算机设备及存储介质
CN110728131A (zh) 一种分析文本属性的方法和装置
CN114676699A (zh) 实体情感分析方法、装置、计算机设备和存储介质
CN110929749B (zh) 文本识别方法、装置、介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant