CN109408824A - 用于生成信息的方法和装置 - Google Patents

用于生成信息的方法和装置 Download PDF

Info

Publication number
CN109408824A
CN109408824A CN201811308412.6A CN201811308412A CN109408824A CN 109408824 A CN109408824 A CN 109408824A CN 201811308412 A CN201811308412 A CN 201811308412A CN 109408824 A CN109408824 A CN 109408824A
Authority
CN
China
Prior art keywords
word
text
words
variant
measured
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811308412.6A
Other languages
English (en)
Other versions
CN109408824B (zh
Inventor
徐�明
焦大原
梁军
叶敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201811308412.6A priority Critical patent/CN109408824B/zh
Publication of CN109408824A publication Critical patent/CN109408824A/zh
Application granted granted Critical
Publication of CN109408824B publication Critical patent/CN109408824B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了用于生成信息的方法和装置。该方法的一具体实施方式包括:获取第一词和第二词;分别从该第一词和第二词中提取词特征,以及确定该第一词的词特征与该第二词的词特征之间的相似度;基于所确定的相似度,生成词特征向量;将该词特征向量输入至预先训练的变体词识别模型,得到变体词概率,其中,变体词识别模型用于表征词特征向量与变体词概率之间的对应关系,变体词概率用于表征生成词特征向量的词中的一个词是另一个词的变体词的可能性。该实施方式实现了生成用于表征一个词是另一个词的变体词的概率的信息。

Description

用于生成信息的方法和装置
技术领域
本申请实施例涉及计算机技术领域,具体涉及用于生成信息的方法和装置。
背景技术
随着互联网技术的发展,网络文本内容日益增多。人们为了避免审核,常常会采用将一些敏感词或不合规的词改变成与之对应的变体形式,这些用于替代原本应出现的词的变体形式被称作变体词(Morph)。为了准确识别这些变体词,相关的方式通常是采用现有风险词库或预设的黑名单进行匹配,通过不断收集新的变体词来对风险词库进行更新。
发明内容
本申请实施例提出了用于生成信息的方法和装置。
第一方面,本申请实施例提供了一种用于生成信息的方法,该方法包括:获取第一词和第二词;分别从第一词和第二词中提取词特征,以及确定第一词的词特征与第二词的词特征之间的相似度;基于所确定的相似度,生成词特征向量;将词特征向量输入至预先训练的变体词识别模型,得到变体词概率,其中,变体词识别模型用于表征词特征向量与变体词概率之间的对应关系,变体词概率用于表征生成词特征向量的词中的一个词是另一个词的变体词的可能性。
在一些实施例中,上述获取第一词和第二词,包括:获取待测文本;对待测文本进行分词,得到待测文本的词集合;基于待测文本的词集合和预设词集合的匹配,从词集合中确定出词作为第一词以及从预设词集合中确定出与所确定的第一词对应的预设词作为第二词。
在一些实施例中,上述基于所确定的相似度,生成词特征向量,包括:将待测文本中的第一词替换为第二词,生成替换文本;将待测文本和替换文本分别输入至预先训练的语言识别模型,得到分别与待测文本和替换文本对应的语句通顺度,其中,语言识别模型用于表征文本与语句通顺度之间的对应关系,语句通顺度用于表征文本中的字符组成句子的可能性;确定待测文本的词集合中的词的数目;对替换文本进行分词,确定替换文本分词后所得到的词的数目;基于所确定的相似度、所得到的语句通顺度和所确定的词的数目,生成词特征向量。
在一些实施例中,上述基于待测文本的词集合和预设词集合的匹配,从词集合中确定出词作为第一词以及从预设词集合中确定出与所确定的第一词对应的预设词作为第二词,包括:对于待测文本的词集合中的词,提取该词的词变体特征;根据预设的特征距离阈值,生成与该词对应的候选第二词集合;从与该词对应的候选第二词集合中删除满足预设的过滤条件的候选第二词,得到更新后的候选第二词集合;响应于确定与该词对应的、更新后的候选第二词集合中存在与预设词集合中的预设词相匹配的候选第二词,将该词确定为第一词,以及将与预设词集合中的预设词相匹配的候选第二词确定为第二词。
在一些实施例中,上述变体词识别模型通过如下步骤训练得到:
获取训练样本集合,其中,训练样本包括样本词特征向量和与样本词特征向量对应的样本变体词概率;将训练样本集合中的训练样本的样本词特征向量作为输入,将与输入的样本词特征向量对应的样本变体词概率作为期望输出,训练得到变体词识别模型。
在一些实施例中,上述基于所确定的相似度,生成词特征向量,包括:分别确定第一词和第二词在预设的历史词集合中出现的次数;根据所确定的次数,生成转化率特征,其中,转化率特征用于表征第一词和第二词在历史数据中出现的次数之间的关系;基于所确定的相似度和所生成的转化率特征,生成词特征向量。
在一些实施例中,该方法还包括:响应于确定变体词概率大于预设的拒绝阈值,推送表征待测文本不符合预设要求的信息;响应于确定变体词概率小于预设的通过阈值,推送表征待测文本符合预设要求的信息。
第二方面,本申请实施例提供了一种用于生成信息的装置,该装置包括:获取单元,被配置成获取第一词和第二词;确定单元,被配置成分别从第一词和第二词中提取词特征,以及确定第一词的词特征与第二词的词特征之间的相似度;生成单元,被配置成基于所确定的相似度,生成词特征向量;识别单元,被配置成将词特征向量输入至预先训练的变体词识别模型,得到变体词概率,其中,变体词识别模型用于表征词特征向量与变体词概率之间的对应关系,变体词概率用于表征生成词特征向量的词中的一个词是另一个词的变体词的可能性。
在一些实施例中,上述获取单元包括:获取模块,被配置成获取待测文本;分词模块,被配置成对待测文本进行分词,得到待测文本的词集合;第一确定模块,被配置成基于待测文本的词集合和预设词集合的匹配,从词集合中确定出词作为第一词以及从预设词集合中确定出与所确定的第一词对应的预设词作为第二词。
在一些实施例中,上述生成单元包括:第一生成模块,被配置成将待测文本中的第一词替换为第二词,生成替换文本;第二生成模块,被配置成将待测文本和替换文本分别输入至预先训练的语言识别模型,得到分别与待测文本和替换文本对应的语句通顺度,其中,语言识别模型用于表征文本与语句通顺度之间的对应关系,语句通顺度用于表征文本中的字符组成句子的可能性;第二确定模块,被配置成确定待测文本的词集合中的词的数目;第三确定模块,被配置成对替换文本进行分词,确定替换文本分词后所得到的词的数目;第三生成模块,被配置成基于所确定的相似度、所得到的语句通顺度和所确定的词的数目,生成词特征向量。
在一些实施例中,上述第一确定模块进一步被配置成:对于待测文本的词集合中的词,提取该词的词变体特征;根据预设的特征距离阈值,生成与该词对应的候选第二词集合;从与该词对应的候选第二词集合中删除满足预设的过滤条件的候选第二词,得到更新后的候选第二词集合;响应于确定与该词对应的、更新后的候选第二词集合中存在与预设词集合中的预设词相匹配的候选第二词,将该词确定为第一词,以及将与预设词集合中的预设词相匹配的候选第二词确定为第二词。
在一些实施例中,上述变体词识别模型通过如下步骤训练得到:获取训练样本集合,其中,训练样本包括样本词特征向量和与样本词特征向量对应的样本变体词概率;将训练样本集合中的训练样本的样本词特征向量作为输入,将与输入的样本词特征向量对应的样本变体词概率作为期望输出,训练得到变体词识别模型。
在一些实施例中,上述生成单元包括:第四确定模块,被配置成分别确定第一词和第二词在预设的历史词集合中出现的次数;第四生成模块,被配置成根据所确定的次数,生成转化率特征,其中,转化率特征用于表征第一词和第二词在历史数据中出现的次数之间的关系;第五生成模块,被配置成基于所确定的相似度和所生成的转化率特征,生成词特征向量。
在一些实施例中,该装置还包括:推送单元,被配置成响应于确定变体词概率大于预设的拒绝阈值,推送表征待测文本不符合预设要求的信息;响应于确定变体词概率小于预设的通过阈值,推送表征待测文本符合预设要求的信息。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括:一个或多个处理器;存储装置,其上存储有一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。
第四方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面中任一实现方式描述的方法。
本申请实施例提供的用于生成信息的方法和装置,首先获取第一词和第二词。然后,分别从上述第一词和第二词中提取词特征,以及确定上述第一词的词特征与上述第二词的词特征之间的相似度。接下来,基于所确定的相似度,生成词特征向量。最后,将上述词特征向量输入至预先训练的变体词识别模型,得到变体词概率。从而实现了生成用于表征一个词是另一个词的变体词的概率的信息
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请的一个实施例可以应用于其中的示例性系统架构图;
图2是根据本申请的用于生成信息的方法的一个实施例的流程图;
图3是根据本申请实施例的用于生成信息的方法的一个应用场景的示意图;
图4是根据本申请的用于生成信息的方法的又一个实施例的流程图;
图5是根据本申请的生成信息的装置的一个实施例的结构示意图;
图6是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的用于生成信息的方法或用于生成信息的装置的示例性架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、即时通信工具、文本编辑类应用、阅读类应用等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有显示屏并且支持通信连接的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如为终端设备101、102、103上显示的网页提供支持的后台服务器。后台服务器可以对获取的第一词和第二词进行分析,并生成分析结果。可选地,后台服务器还可以将分析结果推送给终端设备。
需要说明的是,上述所获取的第一词和第二词也可以直接存储在服务器105的本地,服务器105可以直接提取本地所存储的第一词和第二词并进行分析,此时,可以不存在终端设备101、102、103和网络104。
需要说明的是,服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
需要说明的是,本申请实施例所提供的用于生成信息的方法可以由服务器105执行;也可以由终端设备执行。相应地,用于生成信息的装置可以设置于服务器105或终端设备中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的用于生成信息的方法的一个实施例的流程200。该用于生成信息的方法包括以下步骤:
步骤201,获取第一词和第二词。
在本实施例中,用于生成信息的方法的执行主体(例如图1所示的服务器105)可以通过各种方式获取第一词和第二词。作为示例,上述执行主体可以获取预先存储于本地的第一词和第二词。上述执行主体也可以获取与之通信连接的电子设备(例如图1所示的终端设备)发送的第一词和第二词。上述执行主体还可以从网页上或者通信连接的数据库服务器中获取第一词和第二词。其中,上述第一词和第二词通常可以是单个词,也可以是由至少两个词构成的词组。
在本实施例中的一些可选的实现方式中,上述第一词通常还可以包括以下至少一项:由若干个字符组成的字符序列,在词或词组中插入或删除字符而形成的字符序列,在词或词组中颠倒某几个字符的顺序而形成的字符序列。上述字符可以包括但不限于以下至少一项:汉字、字母、标点符号。上述第二词通常可以指用于表征第一词要表达的真实含义的词。实践中,上述第一词也可以称为变体词。上述第二词也可以称为与变体词对应的本体词。作为示例,上述第一词可以是“治俞”、“颈i椎病”、“社主会义”。上述第二词可以是“治愈”、“颈椎病”、“社会主义”。需要说明的是,上述“第一”“第二”只是为了对所获取的两个词加以区分而赋予的名称。对上述“第一词”和“第二词”的描述也仅仅是示例性的,并不对其所表示的含义构成限制。
在本实施例的一些可选的实现方式中,上述执行主体还可以按照如下步骤获取第一词和第二词:
第一步,获取待测文本。
上述执行主体可以通过各种方式获取待测文本。其中,待测文本通常可以包括至少一个语句。例如,待测文本可以是对待发布的产品进行介绍的文字,也可以是文章或网络评论。具体地,上述执行主体可以从本地获取预先存储的待测文本,也可以从通信连接的电子设备获取待测文本,在此不作限定。
第二步,对待测文本进行分词,得到待测文本的词集合。
上述执行主体可以通过各种方式对在第一步中所获取的文本进行分词处理,得到待测文本的词集合。其中,文本分词的方式可以包括但不限于字符串匹配法(机械分词方法)、基于N-gram(n元语法)模型的分词方法、基于HMM(Hidden Markov Model,隐马尔可夫模型)的分词方法等。需要说明的是,上述分词方法是目前广泛研究和应用的公知技术,在此不再赘述。
第三步,基于待测文本的词集合和预设词集合的匹配,从词集合中确定出词作为第一词以及从预设词集合中确定出与所确定的第一词对应的预设词作为第二词。
上述执行主体可以在上述预设词集合中查找待测文本的词集合中的词,确定词集合中是否存在与预设词集合中的预设词匹配的词。响应于确定存在,上述执行主体可以将词集合中与预设词集合匹配的词确定为第一词,将预设词集合中与所确定的第一词对应的预设词作为第二词。需要说明的是,上述匹配通常指相同。
其中,上述预设词集合可以是根据历史数据预先构建的、包括大量的预设词的集合。上述预设词集合的数目和所包括的预设词可以根据需要而设定。例如,可以由大量的第一词和第二词组成一个预设词集合。再例如,可以由大量的第一词组成第一预设词集合,再由大量的第二词组成第二预设词集合。上述对应关系可以根据预先构建的预设词对应关系表来确定。其中,上述预设词对应关系表用于表征预设词集合所包括的第一词与第二词之间的对应关系。作为示例,在商标保护的应用场景下,可以预先构建包括需要保护的商标名称的第二预设词集合。然后,根据上述第二预设词集合,对于第二预设词集合中的商标名称,利用形近字、同音字等生成该商标名称的变体。通过收集大量的上述商标名称的变体,构建与上述第二预设词集合对应的第一预设词集合。进一步地,还可以构建第一预设词集合中的预设词与第二预设词集合中的预设词的对应关系。可以理解,上述对应关系可以是一一对应;也可以是第一预设词集合中的一个预设词与第二预设词集合中的至少两个预设词对应;还可以是第一预设词集合中的至少两个预设词与第二预设词集合中的一个预设词对应。
可选地,上述预设词集合还可以是采用表或图的其他形式。其中,图中的节点可以用于表征预设词。上述预设词可以由上述第一词和第二词组成。图中的边可以用于表征节点之间的关系。进一步地,图中的边可以用于表征上述数据库中的第一词和第二词之间的对应关系。
可选地,基于待测文本的词集合和预设词集合的匹配,上述执行主体还可以通过如下方式从词集合中确定出词作为第一词以及从预设词集合中确定出与所确定的第一词对应的预设词作为第二词:对于待测文本的词集合中的词,上述执行主体还可以提取该词的词变体特征;然后,根据预设的特征距离阈值,生成与该词对应的候选第二词集合;接下来,从与该词对应的候选第二词集合中删除满足预设的过滤条件的候选第二词,得到更新后的候选第二词集合;之后,响应于确定与该词对应的、更新后的候选第二词集合中存在与上述预设词集合中的预设词相匹配的词,将该词确定为第一词,以及将与预设词集合中的预设词相匹配的候选第二词确定为第二词。
其中,上述词变体特征可以用于表征能够通过其改变而生成词的变体的属性。上述词变体特征可以包括但不限于以下至少一项:同音特征,笔画特征,声母特征,音字特征,韵母特征,增删特征,字面颠倒特征。上述同音特征可以用于表征第一词与第二词具有相同的读音。上述笔画特征可以用于表征第一词与第二词具有相似的字形,例如可以用五笔编码、四角号码等表示。上述声母特征可以用于表征第一词中的字符与第二词中的字符具有相同的声母。上述音字特征可以用于表征将第二词中的字符用读音相同的另一字符进行替换。上述韵母特征可以用于表征第一词中的字符与第二词中的字符具有相同的韵母。上述增删特征可以用于表征第一词比第二词中多或少若干个字符。上述字面颠倒特征可以用于表征第一词中的字符与第二词中的字符的排列顺序。
上述预设的过滤条件可以是根据实际的应用需求而预先设定的。例如,如果实际的应用需求是从候选第二词集合中剔除明显不属于第二词的词,那么预设的过滤条件例如可以是确定候选第二词所包括的字符属于标点符号。可以理解,上述预设词集合所包括的第二词可以是根据实际需要所预先指定的词。例如,商标名称、夸大宣传的广告语、不文明用语。
作为示例,预设词集合中可以包括“老字号”。待测文本的词集合可以为{认准,老学号}。通过上述词变体特征,“老学号”所生成的候选第二词集合可以是{佬学号,老雪号,老宇号,老字号,老写号,老学汉、lao学号,老学h,淘学号,老觉号,老|学号,老学_号,学号老,学老号}。
可以理解,根据所获取的待测文本的词集合,可以生成至少一个与待测文本的词集合中的词对应的候选第二词集合。基于上述候选第二词集合,还可以生成数目不多于上述待测文本的词集合所包括的词的数目的、更新后的候选第二词集合。
可选地,上述执行主体响应于确定上述更新后的候选第二词集合中不存在与预设词集合中的预设词相匹配的词,可以将上述待测文本的词集合中的词进行调整;以及将调整后所形成新词添加至上述待测文本的词集合;然后,上述执行主体再针对上述新词,从提取词特征的步骤开始,继续执行上述确定第一词和第二词的步骤。其中,上述对待测文本的词集合中的词进行调整可以包括不同词之间进行拼接。例如,可以将“大会,堂”拼接成“大会堂”。上述进行调整的方式可以利用n-gram(n元模型,把词按照n个字来切分),通过指定n的数值进行词拼接。例如,“北i京烤鸭”的分词结果为“北,i,京,烤鸭”。如果指定n为3,则分词结果为“北i京,i京烤,京烤鸭”。
步骤202,分别从第一词和第二词中提取词特征,以及确定第一词的词特征与第二词的词特征之间的相似度。
在本实施例中,上述执行主体可以分别从所获取的第一词和第二词中提取第一词的词特征和第二词的词特征。其中,词特征可以用于表征能够区分第一词与第二词之间的差别的属性。词特征可以包括但不限于以下至少一项:字音特征,字形特征,字序特征,字频特征。其中,字音特征例如可以用词中所包含的字符的汉语拼音或国际音标等来表示。字形特征例如可以用词中所包含的字符的笔画、五笔编码、四角号码等来表示。字序特征可以用于表征词中所包含的字符的排列顺序。字频特征可以用于表征以下至少一项:词中所包含的字符的出现频率,词的出现频率。其中,上述出现频率可以包括但不限于TF(TermFrequency,词频)、IDF(Inverse Document Frequency,逆向文件频率)、DF(DocumentFrequency,文档频数)。
在本实施例中,上述执行主体可以从第一词和第二词中提取上述词特征所包括的至少一项特征。需要说明的是,执行主体从第一词和第二词中提取的特征需要保持一致。例如,执行主体从第一词中提取词特征的是字音特征和字形特征。那么,执行主体从第二词中提取的词特征通常也应该是字音特征和字形特征。通常,执行主体所提取的特征的表示方式也需要保持一致。例如,从第一词中提取的字音特征是用汉语拼音表示的,那么从第二词中提取的字音特征通常也应该是用汉语拼音表示的。
接下来,上述执行主体可以根据所提取的词特征,分别确定第一词的词特征与从第二词中提取的、对应的词特征之间的相似度。其中,上述相似度可以用于表征词特征之间的相似程度。上述相似度可以有多种表示形式。其可以表示为词特征之间的距离,例如欧氏距离(Euclidean Distance)、编辑距离(edit distance)。也可以表示为词特征之间的相似性,例如杰卡德系数(Jaccard Index)、余弦相似性。本领域技术人员可以理解,词特征的表示方式需要与相似度的表示方式相匹配。例如,当词特征的表示方式为字母形式时,不宜直接采用欧氏距离来表示词特征的相似度。如采用欧氏距离作为词特征的相似度的表示方式,可以将先将词特征的表示方式转化为数字。
作为示例,上述执行主体可以从第一词和第二词中提取用汉语拼音表示的字音特征和用四角号码表示的字形特征。接下来,上述执行主体可以通过确定第一词中的字符的汉语拼音与第二词中的字符的汉语拼音之间的Levenshtein距离(莱文斯坦距离,属于编辑距离中的一种)来确定第一词的字音特征与第二词的字音特征之间的相似度。类似地,上述执行主体也可以通过确定第一词中的字符的四角号码与第二词中的字符的四角号码之间的汉明距离(Hamming Distance)确定第一词的字形特征与第二词的字形特征的相似度。
步骤203,基于所确定的相似度,生成词特征向量。
在本实施例中,上述执行主体可以基于步骤202所确定的相似度,生成词特征向量。其中,所确定的相似度的数目通常与所提取的词特征的数目相同。
上述执行主体可以将所确定的相似度进行组合,生成词特征向量。此时,上述词特征向量的维数可以与所确定的相似度的数目相同。上述词特征向量可以用于表征上述第一词与第二词之间的相似程度。
在本实施例的一些可选的实现方式中,上述执行主体还可以通过如下步骤生成词特征向量:
第一步,分别确定第一词和第二词在预设的历史文本集合中的出现频率。
上述历史文本集合可以是根据历史数据预先设置的文本的集合。预设的历史文本集合中可以包括文档,文档中包括词。上述执行主体可以在预设的历史文本集合中分别检索第一词和第二词,确定第一词和第二词的出现频率。可以理解,上述第一词的出现频率和第二词的出现频率也可以包括但不限于TF、IDF、DF。例如,上述第一词的出现频率可以是上述第一词在历史文本集合中的出现次数。再例如,上述第一词的出现频率还可以是历史文本集合中包括上述第一词的文档数目与历史文本集合中的文档总数目的比值。
第二步,根据所确定的出现频率,生成转化率特征。
上述转化率特征用于表征第一词和第二词在历史文本中的出现频率之间的关系。上述转化率特征可以表示为多种形式,例如第一词的出现频率与第二词的出现频率之间的比值。
作为示例,实践中,由于第二词在语料中的出现频率通常会远远高于第一词,所以可以将上述转化率表示为pt=lg(po/pm)。其中,pt用于表征转化率特征,po用于表征第二词的出现频率,pm用于表征第一词的出现频率。需要说明的是,当pm为0时,为了避免上述转化率无法计算,通常可以将0调整为预设值,例如0.1或0.01。
第三步,基于所确定的相似度和所生成的转化率特征,生成词特征向量。
上述执行主体可以将所确定的相似度和所生成的转化率特征进行组合,得到词特征向量。在这些实现方式中,上述词特征向量的维数可以大于所确定的相似度的数目。
在本实施例的一些可选的实现方式中,上述执行主体还可以进一步将所生成的词特征向量进行归一化处理。上述对特征向量进行归一化处理的方法可以包括但不限于离差标准化(min-max标准化)、Z-score标准化、Sigmoid函数等方法。需要说明的是,上述特征归一化处理的方法是目前广泛研究和应用的公知技术,在此不再赘述。
步骤204,将词特征向量输入至预先训练的变体词识别模型,得到变体词概率。
在本实施例中,上述执行主体可以将通过步骤203生成的词特征向量输入至预先训练的变体词识别模型,得到变体词概率。其中,上述变体词识别模型可以用于表征词特征向量与变体词概率之间的对应关系。上述变体词概率可以用于表征生成词特征向量的两个词中的一个词是另一个词的变体词的可能性。作为示例,可以将用于表征生成词特征向量的两个词中的一个词是另一个词的变体词的概率设置为1,将用于表征生成词特征向量的两个词中的一个词不是另一个词的变体词的概率设置为0。数值越接近1,生成词特征向量的两个词中的一个词是另一个词的变体词的可能性越大。可选地,上述执行主体通常还可以将所得到的变体词概率进行输出显示或发送至预先指定的终端。
需要说明的是,作为示例,上述预先训练的变体词识别模型可以是技术人员基于对大量的词特征向量和变体词概率的统计而预先制定的、存储有大量词特征向量与变体词概率的对应关系的对应关系表。也可以是技术人员基于对大量数据的统计而预先设置的判定规则。上述判定规则例如可以包括:上述执行主体将词特征向量中所包括的元素与预先设定的距离判定阈值进行比较;响应于确定小于距离判定阈值的元素的数目大于预设的变体数目阈值,则输出的变体词概率为1;响应于确定大于距离判定阈值的元素的数目大于预设的非变体数目阈值,则输出的变体词概率为0。其中,预先设定的距离判定阈值的数目可以与词特征向量中的维数相同。上述变体数目阈值、非变体数目阈值距离和距离判定阈值的设定值可以依据技术人员的经验和大量的历史数据。
在本实施例的一些可选的实现方式中,变体词识别模型可以是利用机器学习方法,通过大量的训练样本对各种初始模型进行训练得到的模型。作为示例,上述变体词识别模型可以通过以下步骤训练得到:
第一步,获取初始变体词识别模型。其中,初始变体词识别模型可以是现有的各种分类器。例如,初始变体词识别模型可以为CART(Classification and regression tree,分类与回归树)。具体地,可以是RF(Random forest,随机森林),Boosted Trees(提升树)等等。
第二步,获取训练样本集合。训练样本集合中的每个训练样本可以包括样本词特征向量和样本变体词概率。其中,样本变体词概率可以用于表征生成样本词特征向量的两个词中的一个词是另一个词的变体词的可能性。
实践中,训练样本可以通过各种方式得到。作为示例,可以由技术人员对历史数据进行如前述步骤202-203的加工,将由第一词和与第一词对应的第二词所生成的样本词特征向量和表征生成样本词特征向量的两个词中的一个词是另一个词的变体词的样本变体词概率关联存储;将不具备上述变体词对应关系的两个词所生成的样本词特征向量和表征生成样本词特征向量的两个词中的一个词不是另一个词的变体词的样本变体词概率关联存储,最终得到训练样本。通过上述方法对大量的数据进行关联存储,形成大量的训练样本,进而组成训练样本集合。
第三步,利用机器学习的方法,将训练样本集合中的训练样本中的样本词特征向量作为初始变体词识别模型的输入,将与输入的样本词特征向量对应的样本变体词概率作为期望输出,训练得到上述变体词识别模型。
具体地,上述训练步骤的执行主体可以将训练样本集合中的训练样本的样本词特征向量输入至初始变体词识别模型,得到该训练样本的变体词概率。然后,可以利用预设的损失函数计算所得到的训练样本的变体词概率与该训练样本的样本变体词概率之间的差异程度。接下来,可以利用正则化项计算模型的复杂度。之后,基于计算所得的差异程度和模型的复杂度,调整初始变体词识别模型的结构参数,并在满足预设的训练结束条件的情况下,结束训练。最后,将训练得到的初始变体词识别模型确定为变体词识别模型。
需要说明的是,上述损失函数可以采用对数损失函数,上述正则化项可以采用L2范数。上述预设的训练结束条件可以包括但不限于以下至少一项:训练时间超过预设时长;训练次数超过预设次数;计算所得的差异程度小于预设的差异阈值;测试集上的准确率达到预设的准确率阈值;测试集上的覆盖率达到预设的覆盖率阈值。
还需要说明的是,基于所得到的训练样本的变体词概率与该训练样本的样本变体词概率之间的差异程度,可以采用各种方式调整初始变体词识别模型的结构参数。例如,可以采用XGBoost算法或者GBDT(Gradient Boosting Decision Tree,梯度提升决策树)算法来调整初始变体词识别模型的结构参数。
值得注意的是,上述训练步骤的执行主体可以与用于生成信息的方法的执行主体相同或者不同。如果相同,则上述训练步骤的执行主体可以在训练得到变体词识别模型后将训练好的变体词识别模型的结构信息和参数值存储在本地。如果不同,则上述训练步骤的执行主体可以在训练得到变体词识别模型后将训练好的变体词识别模型的结构信息和参数值发送给用于生成信息的方法的执行主体。
继续参见图3,图3是根据本申请实施例的用于生成信息的方法的应用场景的一个示意图。在图3的应用场景中,后台服务器310首先通过步骤301从通信连接的网页服务器(图中未示出)获取第一词“皮肤病”3011和第二词“疲肤病”3012。然后,后台服务器310执行步骤302。从“皮肤病”3011中提取字音特征“pifubing”和字形特征“hciefwyugmw”。从“疲肤病”3012中提取字音特征“pifubing”和字形特征“uhciefwyugmw”。其中,字音特征用汉语拼音表示;字形特征用五笔编码表示。接下来,后台服务器310确定“皮肤病”3011和“疲肤病”3012的字音特征的编辑距离为0,且字形特征的编辑距离为1。之后,后台服务器310通过执行步骤303生成词特征向量(0,1)。作为示例,预设的距离判定阈值为2;变体数目阈值为1。那么,后台服务器310根据(0,1)中的元素0和1均小于预设的距离判定阈值2,确定小于距离判定阈值的元素的数目2大于预设的变体数目阈值1。后台服务器310执行步骤304后输出的变体词概率为“1”。
本申请的上述实施例提供的方法首先获取第一词和第二词;然后,分别从上述第一词和第二词中提取词特征,以及确定上述第一词的词特征与上述第二词的词特征之间的相似度;接下来,基于所确定的相似度,生成词特征向量;最后,将上述词特征向量输入至预先训练的变体词识别模型,得到变体词概率。从而可以实现生成所获取的词中包括变体词的概率,降低了变体词识别的人力成本。
进一步参考图4,其示出了用于生成信息的方法的又一个实施例的流程400。该用于生成信息的方法的流程400,包括以下步骤:
步骤401,获取待测文本。
步骤402,对待测文本进行分词,得到待测文本的词集合。
步骤403,基于待测文本的词集合和预设词集合的匹配,从词集合中确定出词作为第一词以及从预设词集合中确定出与所确定的第一词对应的预设词作为第二词。
步骤404,分别从第一词和第二词中提取词特征,以及确定第一词的词特征与第二词的词特征之间的相似度。
上述步骤401-403和步骤404分别与前述实施例中的步骤201中所描述的一些可选的实现方式和步骤202一致,上文针对步骤201中的一些可选的实现方式和步骤202的描述也适用于步骤401-404,此处不再赘述。
步骤405,将待测文本中的第一词替换为第二词,生成替换文本。
上述执行主体可以根据所确定的第一词和第二词,将待测文本中的第一词替换为第二词,生成替换文本。可以理解,如果同一个第一词在待测文本中出现了至少两次,则上述执行主体通常可以将所有出现的第一词替换为与上述第一词对应的第二词。进一步地,如果待测文本中存在至少两个不同的第一词,则对于上述至少两个不同的第一词,上述执行主体通常可以将所有出现的该第一词替换为与该第一词对应的第二词。然后,上述执行主体可以将替换后的文本作为上述替换文本。
步骤406,将待测文本和替换文本分别输入至预先训练的语言识别模型,得到分别与待测文本和替换文本对应的语句通顺度。
在本实施例中,上述语言识别模型用于表征文本与语句通顺度之间的对应关系。上述语句通顺度用于表征文本中的字符组成句子的可能性。
实践中,上述语言识别模型可以是N-gram(N元语法)语言模型。具体地,上述执行主体可以采用与传统统计语言模型一致的求解方法,对待测文本求解每一个N-gram的条件概率的值。然后,计算N-gram在语料中出现的频率。接下来,对计算所得到的结果进行归一化。进一步地,上述执行主体还可以对所得到的结果进行数据平滑。上述数据平滑的方法可以包括但不限于以下至少一项:Laplace(拉普拉斯)平滑,加法平滑,Good-Turing(古德-图灵)平滑。可选地,上述语言识别模型也可以是基于神经网络的语言模型,例如神经概率语言模型(Begio等人在2003年提出的一种方法)。需要说明的是,上述语言识别模型是目前广泛研究和应用的公知技术,在此不再赘述。
在本实施例中,上述执行主体可以将待测文本和替换文本分别输入至上述语言识别模型。然后,可以得到分别与待测文本和替换文本对应的语句通顺度。
步骤407,确定待测文本的词集合中的词的数目。
在本实施例中,上述执行主体可以从待测文本的词集合中确定出词集合所包括的词的数目。
步骤408,对替换文本进行分词,确定替换文本分词后所得到的词的数目。
在本实施例中,上述执行主体可以对上述步骤405所生成的替换文本进行分词。其中,文本分词的方式可以包括但不限于字符串匹配法(机械分词方法)、基于N-gram模型的分词方法、基于HMM的分词方法等。然后,上述执行主体可以确定分词后所得到的词的数目。
需要说明的是,上述步骤404与步骤405-408可以基本并行地执行;也可以先执行上述步骤405-408,再执行步骤404,在此不作限定。
步骤409,基于所确定的相似度、所得到的语句通顺度和所确定的词的数目,生成词特征向量。
在本实施例中,上述执行主体可以基于上述步骤404所确定的相似度、步骤406所得到的语句通顺度、步骤407和步骤408所确定的词的数目,生成词特征向量。
具体地,上述执行主体可以确定所得到的语句通顺度的比较结果。上述比较结果可以是多种形式。例如,可以是上述所得到的语句通顺度的差值。再例如,可以是上述所得到的语句通顺度的比值。然后,上述执行主体还可以确定待测文本的词集合中的词的数目与替换文本分词后所得到的词的数目的比较结果。类似地,上述比较结果也可以是上述待测文本的词集合中的词的数目与替换文本分词后所得到的词的数目的差值或比值。最后,上述执行主体可以将所确定的相似度、所得到的语句通顺度的比较结果、待测文本的词集合中的词的数目与替换文本分词后所得到的词的数目的比较结果进行组合,得到词特征向量。
步骤410,将词特征向量输入至预先训练的变体词识别模型,得到变体词概率。
上述步骤410与前述实施例中的步骤204一致,上文针对步骤204的描述也适用于步骤410,此处不再赘述。
步骤411,响应于确定变体词概率大于预设的拒绝阈值,推送表征待测文本不符合预设要求的信息;响应于确定变体词概率小于预设的通过阈值,推送表征待测文本符合预设要求的信息。
在本实施例中,拒绝阈值和通过阈值可以是根据实际应用场景而预先设置的数值。上述拒绝阈值和通过阈值可以相同,也可以不同。当上述拒绝阈值和通过阈值不同时,上述通过阈值通常要小于上述拒绝阈值。上述表征待测文本符合或不符合预设要求的信息可以是多种形式。例如可以是汉字、字母、数字等等。
实践中,在应用于网页上的文本发布前的审核过程中,响应于确定变体词概率大于预设的拒绝阈值,上述执行主体可以推送表征待测文本不符合预设要求的信息。响应于确定变体词概率小于预设的通过阈值,上述执行主体可以推送表征待测文本符合预设要求的信息。可选地,当上述变体词概率在上述通过阈值和拒绝阈值之间时,上述执行主体还可以将所获取的待测文本发送至人工辅助审核的终端,以确定待测文本是否符合预设要求。
从图4中可以看出,与图2对应的实施例相比,本实施例中的用于生成信息的方法的流程400细化了基于所确定的相似度,生成词特征向量的步骤,以及体现了推送表征待测文本是否符合预设要求的信息的步骤。由此,本实施例描述的方案可以丰富词特征向量的生成方式以及生成待测文本是否符合预设要求的信息,从而实现了从更多角度对待测文本是否符合预设要求进行判定。
进一步参考图5,作为对上述各图所示方法的实现,本申请提供了用于生成信息的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例提供的用于生成信息的装置500包括获取单元501、确定单元502、生成单元503和识别单元504。其中,获取单元501,被配置成获取第一词和第二词;确定单元502,被配置成分别从第一词和第二词中提取词特征,以及确定第一词的词特征与第二词的词特征之间的相似度;生成单元503,被配置成基于所确定的相似度,生成词特征向量;识别单元504,被配置成将词特征向量输入至预先训练的变体词识别模型,得到变体词概率,其中,变体词识别模型用于表征词特征向量与变体词概率之间的对应关系,变体词概率用于表征生成词特征向量的词中的一个词是另一个词的变体词的可能性。
在本实施例中,用于生成信息的装置500中:获取单元501、确定单元502、生成单元503和识别单元504的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201、步骤202、步骤203和步骤204的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,上述获取单元501可以包括:获取模块(图中未示出)、分词模块(图中未示出)和第一确定模块(图中未示出)。其中,上述获取模块可以被配置成获取待测文本。上述分词模块,可以被配置成对待测文本进行分词,得到待测文本的词集合。上述第一确定模块,可以被配置成基于待测文本的词集合和预设词集合的匹配,从词集合中确定出词作为第一词以及从预设词集合中确定出与所确定的第一词对应的预设词作为第二词。
在本实施例的一些可选的实现方式中,上述生成单元503可以包括:第一生成模块(图中未示出)、第二生成模块(图中未示出)、第二确定模块(图中未示出)、第三确定模块(图中未示出)和第三生成模块(图中未示出)。其中,上述第一生成模块,可以被配置成将待测文本中的第一词替换为第二词,生成替换文本。上述第二生成模块,可以被配置成将待测文本和替换文本分别输入至预先训练的语言识别模型,得到分别与待测文本和替换文本对应的语句通顺度,其中,语言识别模型用于表征文本与语句通顺度之间的对应关系,语句通顺度用于表征文本中的字符组成句子的可能性。上述第二确定模块,可以被配置成确定待测文本的词集合中的词的数目。上述第三确定模块,可以被配置成对替换文本进行分词,确定替换文本分词后所得到的词的数目。上述第三生成模块,可以被配置成基于所确定的相似度、所得到的语句通顺度和所确定的词的数目,生成词特征向量。
在本实施例的一些可选的实现方式中,上述第一确定模块可以进一步被配置成:对于待测文本的词集合中的词,提取该词的词变体特征;根据预设的特征距离阈值,生成与该词对应的候选第二词集合;从与该词对应的候选第二词集合中删除满足预设的过滤条件的候选第二词,得到更新后的候选第二词集合;响应于确定与该词对应的、更新后的候选第二词集合中存在与预设词集合中的预设词相匹配的候选第二词,将该词确定为第一词,以及将与预设词集合中的预设词相匹配的候选第二词确定为第二词。
在本实施例的一些可选的实现方式中,上述变体词识别模型可以通过如下步骤训练得到:获取训练样本集合,其中,训练样本包括样本词特征向量和与样本词特征向量对应的样本变体词概率;将训练样本集合中的训练样本的样本词特征向量作为输入,将与输入的样本词特征向量对应的样本变体词概率作为期望输出,训练得到变体词识别模型。
在本实施例的一些可选的实现方式中,上述生成单元503可以包括:第四确定模块(图中未示出)、第四生成模块(图中未示出)和第五生成模块(图中未示出)。其中,上述第四确定模块,可以被配置成分别确定第一词和第二词在预设的历史词集合中出现的次数。上述第四生成模块,可以被配置成根据所确定的次数,生成转化率特征,其中,转化率特征用于表征第一词和第二词在历史数据中出现的次数之间的关系。上述第五生成模块,可以被配置成基于所确定的相似度和所生成的转化率特征,生成词特征向量。
在本实施例的一些可选的实现方式中,该装置500还可以包括:推送单元(图中未示出),被配置成响应于确定变体词概率大于预设的拒绝阈值,推送表征待测文本不符合预设要求的信息;响应于确定变体词概率小于预设的通过阈值,推送表征待测文本符合预设要求的信息。
本申请的上述实施例提供的装置,首先通过获取单元501获取第一词和第二词。然后,确定单元502分别从该第一词和第二词中提取词特征,以及确定该第一词的词特征与该第二词的词特征之间的相似度。之后,生成单元503基于所确定的相似度,生成词特征向量。最后,识别单元504将该词特征向量输入至预先训练的变体词识别模型,得到变体词概率。从而实现了生成用于表征一个词是另一个词的变体词的概率的信息。
下面参考图6,其示出了适于用来实现本申请实施例的电子设备的计算机系统600的结构示意图。图6示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如液晶显示器(LCD)等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的方法中限定的上述功能。
需要说明的是,本申请的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,所述程序设计语言包括面向目标的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器,包括获取单元、确定单元、生成单元和识别单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,获取单元还可以被描述为“获取第一词和第二词的单元”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该电子设备:获取第一词和第二词;分别从该第一词和第二词中提取词特征,以及确定该第一词的词特征与该第二词的词特征之间的相似度;基于所确定的相似度,生成词特征向量;将该词特征向量输入至预先训练的变体词识别模型,得到变体词概率。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (16)

1.一种用于生成信息的方法,包括:
获取第一词和第二词;
分别从所述第一词和所述第二词中提取词特征,以及确定所述第一词的词特征与所述第二词的词特征之间的相似度;
基于所确定的相似度,生成词特征向量;
将所述词特征向量输入至预先训练的变体词识别模型,得到变体词概率,其中,所述变体词识别模型用于表征词特征向量与变体词概率之间的对应关系,所述变体词概率用于表征生成词特征向量的词中的一个词是另一个词的变体词的可能性。
2.根据权利要求1所述的方法,其中,所述获取第一词和第二词,包括:
获取待测文本;
对所述待测文本进行分词,得到所述待测文本的词集合;
基于所述待测文本的词集合和预设词集合的匹配,从所述词集合中确定出词作为第一词以及从所述预设词集合中确定出与所确定的第一词对应的预设词作为第二词。
3.根据权利要求2所述的方法,其中,所述基于所确定的相似度,生成词特征向量,包括:
将所述待测文本中的第一词替换为所述第二词,生成替换文本;
将所述待测文本和所述替换文本分别输入至预先训练的语言识别模型,得到分别与所述待测文本和所述替换文本对应的语句通顺度,其中,所述语言识别模型用于表征文本与语句通顺度之间的对应关系,所述语句通顺度用于表征文本中的字符组成句子的可能性;
确定所述待测文本的词集合中的词的数目;
对所述替换文本进行分词,确定所述替换文本分词后所得到的词的数目;
基于所确定的相似度、所得到的语句通顺度和所确定的词的数目,生成词特征向量。
4.根据权利要求2所述的方法,其中,所述基于所述待测文本的词集合和预设词集合的匹配,从所述词集合中确定出词作为第一词以及从所述预设词集合中确定出与所确定的第一词对应的预设词作为第二词,包括:
对于所述待测文本的词集合中的词,提取该词的词变体特征;根据预设的特征距离阈值,生成与该词对应的候选第二词集合;从与该词对应的候选第二词集合中删除满足预设的过滤条件的候选第二词,得到更新后的候选第二词集合;响应于确定与该词对应的、更新后的候选第二词集合中存在与所述预设词集合中的预设词相匹配的候选第二词,将该词确定为第一词,以及将所述与所述预设词集合中的预设词相匹配的候选第二词确定为第二词。
5.根据权利要求1所述的方法,其中,所述变体词识别模型通过如下步骤训练得到:
获取训练样本集合,其中,训练样本包括样本词特征向量和与样本词特征向量对应的样本变体词概率;
将所述训练样本集合中的训练样本的样本词特征向量作为输入,将与输入的样本词特征向量对应的样本变体词概率作为期望输出,训练得到所述变体词识别模型。
6.根据权利要求1-5之一所述的方法,其中,所述基于所确定的相似度,生成词特征向量,包括:
分别确定所述第一词和所述第二词在预设的历史词集合中出现的次数;
根据所确定的次数,生成转化率特征,其中,所述转化率特征用于表征第一词和第二词在历史数据中出现的次数之间的关系;
基于所确定的相似度和所生成的转化率特征,生成词特征向量。
7.根据权利要求2-5之一所述的方法,其中,所述方法还包括:
响应于确定所述变体词概率大于预设的拒绝阈值,推送表征所述待测文本不符合预设要求的信息;
响应于确定所述变体词概率小于预设的通过阈值,推送表征所述待测文本符合预设要求的信息。
8.一种用于生成信息的装置,包括:
获取单元,被配置成获取第一词和第二词;
确定单元,被配置成分别从所述第一词和所述第二词中提取词特征,以及确定所述第一词的词特征与所述第二词的词特征之间的相似度;
生成单元,被配置成基于所确定的相似度,生成词特征向量;
识别单元,被配置成将所述词特征向量输入至预先训练的变体词识别模型,得到变体词概率,其中,所述变体词识别模型用于表征词特征向量与变体词概率之间的对应关系,所述变体词概率用于表征生成词特征向量的词中的一个词是另一个词的变体词的可能性。
9.根据权利要求8所述的装置,其中,所述获取单元包括:
获取模块,被配置成获取待测文本;
分词模块,被配置成对所述待测文本进行分词,得到所述待测文本的词集合;
第一确定模块,被配置成基于所述待测文本的词集合和预设词集合的匹配,从所述词集合中确定出词作为第一词以及从所述预设词集合中确定出与所确定的第一词对应的预设词作为第二词。
10.根据权利要求9所述的装置,其中,所述生成单元包括:
第一生成模块,被配置成将所述待测文本中的第一词替换为所述第二词,生成替换文本;
第二生成模块,被配置成将所述待测文本和所述替换文本分别输入至预先训练的语言识别模型,得到分别与所述待测文本和所述替换文本对应的语句通顺度,其中,所述语言识别模型用于表征文本与语句通顺度之间的对应关系,所述语句通顺度用于表征文本中的字符组成句子的可能性;
第二确定模块,被配置成确定所述待测文本的词集合中的词的数目;
第三确定模块,被配置成对所述替换文本进行分词,确定所述替换文本分词后所得到的词的数目;
第三生成模块,被配置成基于所确定的相似度、所得到的语句通顺度和所确定的词的数目,生成词特征向量。
11.根据权利要求9所述的装置,其中,所述第一确定模块进一步被配置成:
对于所述待测文本的词集合中的词,提取该词的词变体特征;根据预设的特征距离阈值,生成与该词对应的候选第二词集合;从与该词对应的候选第二词集合中删除满足预设的过滤条件的候选第二词,得到更新后的候选第二词集合;响应于确定与该词对应的、更新后的候选第二词集合中存在与所述预设词集合中的预设词相匹配的候选第二词,将该词确定为第一词,以及将所述与所述预设词集合中的预设词相匹配的候选第二词确定为第二词。
12.根据权利要求8所述的装置,其中,所述变体词识别模型通过如下步骤训练得到:
获取训练样本集合,其中,训练样本包括样本词特征向量和与样本词特征向量对应的样本变体词概率;
将所述训练样本集合中的训练样本的样本词特征向量作为输入,将与输入的样本词特征向量对应的样本变体词概率作为期望输出,训练得到所述变体词识别模型。
13.根据权利要求8-12之一所述的装置,其中,所述生成单元包括:
第四确定模块,被配置成分别确定所述第一词和所述第二词在预设的历史词集合中出现的次数;
第四生成模块,被配置成根据所确定的次数,生成转化率特征,其中,所述转化率特征用于表征第一词和第二词在历史数据中出现的次数之间的关系;
第五生成模块,被配置成基于所确定的相似度和所生成的转化率特征,生成词特征向量。
14.根据权利要求9-12之一所述的装置,其中,所述装置还包括:
推送单元,被配置成响应于确定所述变体词概率大于预设的拒绝阈值,推送表征所述待测文本不符合预设要求的信息;响应于确定所述变体词概率小于预设的通过阈值,推送表征所述待测文本符合预设要求的信息。
15.一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
16.一种计算机可读介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN201811308412.6A 2018-11-05 2018-11-05 用于生成信息的方法和装置 Active CN109408824B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811308412.6A CN109408824B (zh) 2018-11-05 2018-11-05 用于生成信息的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811308412.6A CN109408824B (zh) 2018-11-05 2018-11-05 用于生成信息的方法和装置

Publications (2)

Publication Number Publication Date
CN109408824A true CN109408824A (zh) 2019-03-01
CN109408824B CN109408824B (zh) 2023-04-25

Family

ID=65471394

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811308412.6A Active CN109408824B (zh) 2018-11-05 2018-11-05 用于生成信息的方法和装置

Country Status (1)

Country Link
CN (1) CN109408824B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110298020A (zh) * 2019-05-30 2019-10-01 北京百度网讯科技有限公司 文本反作弊变体还原方法及设备、文本反作弊方法及设备
CN110442691A (zh) * 2019-07-04 2019-11-12 平安科技(深圳)有限公司 机器阅读理解中文的方法、装置和计算机设备
CN111488423A (zh) * 2020-03-05 2020-08-04 北京一览群智数据科技有限责任公司 一种基于索引数据的自然语言处理方法和系统
CN111797622A (zh) * 2019-06-20 2020-10-20 北京沃东天骏信息技术有限公司 用于生成属性信息的方法和装置
CN112287684A (zh) * 2020-10-30 2021-01-29 中国科学院自动化研究所 融合变体词识别的短文本审核方法及装置
CN112883150A (zh) * 2021-01-21 2021-06-01 平安科技(深圳)有限公司 商标词语与通用词语的区分方法、装置、设备及存储介质
WO2021114836A1 (zh) * 2020-06-28 2021-06-17 平安科技(深圳)有限公司 一种文本通顺度确定方法、装置、设备及介质
CN114461806A (zh) * 2022-02-28 2022-05-10 同盾科技有限公司 广告识别模型的训练方法及装置、广告屏蔽方法
US11741950B2 (en) * 2019-11-19 2023-08-29 Samsung Electronics Co., Ltd. Method and apparatus with speech processing
CN117312864A (zh) * 2023-11-30 2023-12-29 国家计算机网络与信息安全管理中心 基于多模态信息的变形词生成模型的训练方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014033799A1 (ja) * 2012-08-27 2014-03-06 株式会社日立製作所 単語意味関係抽出装置
JP2014119988A (ja) * 2012-12-17 2014-06-30 Nippon Telegr & Teleph Corp <Ntt> 同義判定装置、同義学習装置、及びプログラム
CN105095204A (zh) * 2014-04-17 2015-11-25 阿里巴巴集团控股有限公司 同义词的获取方法及装置
CN106156017A (zh) * 2015-03-23 2016-11-23 北大方正集团有限公司 信息识别方法和信息识别系统
CN106445998A (zh) * 2016-05-26 2017-02-22 达而观信息科技(上海)有限公司 一种基于敏感词的文本内容审核方法及系统
CN106844508A (zh) * 2016-12-27 2017-06-13 北京五八信息技术有限公司 变形词识别方法及装置
CN107315734A (zh) * 2017-05-04 2017-11-03 中国科学院信息工程研究所 一种基于时间窗口和语义的变体词规范化的方法和系统
CN107357778A (zh) * 2017-06-22 2017-11-17 达而观信息科技(上海)有限公司 一种变形词的识别验证方法及系统
CN108509474A (zh) * 2017-09-15 2018-09-07 腾讯科技(深圳)有限公司 搜索信息的同义词扩展方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014033799A1 (ja) * 2012-08-27 2014-03-06 株式会社日立製作所 単語意味関係抽出装置
JP2014119988A (ja) * 2012-12-17 2014-06-30 Nippon Telegr & Teleph Corp <Ntt> 同義判定装置、同義学習装置、及びプログラム
CN105095204A (zh) * 2014-04-17 2015-11-25 阿里巴巴集团控股有限公司 同义词的获取方法及装置
CN106156017A (zh) * 2015-03-23 2016-11-23 北大方正集团有限公司 信息识别方法和信息识别系统
CN106445998A (zh) * 2016-05-26 2017-02-22 达而观信息科技(上海)有限公司 一种基于敏感词的文本内容审核方法及系统
CN106844508A (zh) * 2016-12-27 2017-06-13 北京五八信息技术有限公司 变形词识别方法及装置
CN107315734A (zh) * 2017-05-04 2017-11-03 中国科学院信息工程研究所 一种基于时间窗口和语义的变体词规范化的方法和系统
CN107357778A (zh) * 2017-06-22 2017-11-17 达而观信息科技(上海)有限公司 一种变形词的识别验证方法及系统
CN108509474A (zh) * 2017-09-15 2018-09-07 腾讯科技(深圳)有限公司 搜索信息的同义词扩展方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BO HAN等: "Lexical Normalisation of Short Text Messages: Makn Sens a #twitter", 《PROCEEDINGS OF THE 49TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 *
施振辉 等: "基于字词联合的变体词规范化研究", 《计算机系统应用》 *
沙灜 等: "中文变体词的识别与规范化综述", 《信息安全学报》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110298020B (zh) * 2019-05-30 2023-05-16 北京百度网讯科技有限公司 文本反作弊变体还原方法及设备、文本反作弊方法及设备
CN110298020A (zh) * 2019-05-30 2019-10-01 北京百度网讯科技有限公司 文本反作弊变体还原方法及设备、文本反作弊方法及设备
CN111797622B (zh) * 2019-06-20 2024-04-09 北京沃东天骏信息技术有限公司 用于生成属性信息的方法和装置
CN111797622A (zh) * 2019-06-20 2020-10-20 北京沃东天骏信息技术有限公司 用于生成属性信息的方法和装置
CN110442691A (zh) * 2019-07-04 2019-11-12 平安科技(深圳)有限公司 机器阅读理解中文的方法、装置和计算机设备
US11741950B2 (en) * 2019-11-19 2023-08-29 Samsung Electronics Co., Ltd. Method and apparatus with speech processing
CN111488423B (zh) * 2020-03-05 2020-12-22 北京一览群智数据科技有限责任公司 一种基于索引数据的自然语言处理方法和系统
CN111488423A (zh) * 2020-03-05 2020-08-04 北京一览群智数据科技有限责任公司 一种基于索引数据的自然语言处理方法和系统
WO2021114836A1 (zh) * 2020-06-28 2021-06-17 平安科技(深圳)有限公司 一种文本通顺度确定方法、装置、设备及介质
CN112287684A (zh) * 2020-10-30 2021-01-29 中国科学院自动化研究所 融合变体词识别的短文本审核方法及装置
CN112287684B (zh) * 2020-10-30 2024-06-11 中国科学院自动化研究所 融合变体词识别的短文本审核方法及装置
WO2022156115A1 (zh) * 2021-01-21 2022-07-28 平安科技(深圳)有限公司 商标词语与通用词语的区分方法、装置、设备及存储介质
CN112883150A (zh) * 2021-01-21 2021-06-01 平安科技(深圳)有限公司 商标词语与通用词语的区分方法、装置、设备及存储介质
CN112883150B (zh) * 2021-01-21 2023-07-25 平安科技(深圳)有限公司 商标词语与通用词语的区分方法、装置、设备及存储介质
CN114461806A (zh) * 2022-02-28 2022-05-10 同盾科技有限公司 广告识别模型的训练方法及装置、广告屏蔽方法
CN117312864A (zh) * 2023-11-30 2023-12-29 国家计算机网络与信息安全管理中心 基于多模态信息的变形词生成模型的训练方法及装置

Also Published As

Publication number Publication date
CN109408824B (zh) 2023-04-25

Similar Documents

Publication Publication Date Title
CN109408824A (zh) 用于生成信息的方法和装置
US11501182B2 (en) Method and apparatus for generating model
CN107273503B (zh) 用于生成同语言平行文本的方法和装置
CN107291783B (zh) 一种语义匹配方法及智能设备
US20190103091A1 (en) Method and apparatus for training text normalization model, method and apparatus for text normalization
CN110674271B (zh) 一种问答处理方法及装置
CN111428488A (zh) 简历数据信息解析及匹配方法、装置、电子设备及介质
US20200372025A1 (en) Answer selection using a compare-aggregate model with language model and condensed similarity information from latent clustering
US10915756B2 (en) Method and apparatus for determining (raw) video materials for news
CN111414561B (zh) 用于呈现信息的方法和装置
CN109582788A (zh) 垃圾评论训练、识别方法、装置、设备及可读存储介质
CN112188311B (zh) 用于确定新闻的视频素材的方法和装置
CN110750646B (zh) 一种旅店评论文本的属性描述提取方法
CN113627797B (zh) 入职员工画像生成方法、装置、计算机设备及存储介质
CN114255096A (zh) 数据需求匹配方法和装置、电子设备、存储介质
CN116414959A (zh) 数字人的互动控制方法、装置、电子设备和存储介质
CN107766498A (zh) 用于生成信息的方法和装置
CN114722174A (zh) 提词方法和装置、电子设备及存储介质
CN110610003A (zh) 用于辅助文本标注的方法和系统
CN114186041A (zh) 一种答案输出方法
CN111597302B (zh) 文本事件的获取方法、装置、电子设备及存储介质
CN115796141A (zh) 文本数据增强方法和装置、电子设备、存储介质
CN112364649B (zh) 命名实体的识别方法、装置、计算机设备及存储介质
CN109036554A (zh) 用于生成信息的方法和装置
CN114398482A (zh) 一种词典构造方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant