CN107291774A - 错误样本识别方法和装置 - Google Patents

错误样本识别方法和装置 Download PDF

Info

Publication number
CN107291774A
CN107291774A CN201610221936.6A CN201610221936A CN107291774A CN 107291774 A CN107291774 A CN 107291774A CN 201610221936 A CN201610221936 A CN 201610221936A CN 107291774 A CN107291774 A CN 107291774A
Authority
CN
China
Prior art keywords
input text
classification
logic regression
probable value
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610221936.6A
Other languages
English (en)
Other versions
CN107291774B (zh
Inventor
陶玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201610221936.6A priority Critical patent/CN107291774B/zh
Publication of CN107291774A publication Critical patent/CN107291774A/zh
Application granted granted Critical
Publication of CN107291774B publication Critical patent/CN107291774B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了错误样本识别方法和装置。所述方法的一具体实施方式包括:获取输入信息,通过输入文本所属的逻辑回归模型得出所述输入文本对应的至少一个第一分类及该第一分类对应的第一概率值;响应于至少一个第一概率值中的每个第一概率值均小于第一预设阈值,通过至少一个关联逻辑回归模型得到所述输入文本对应的至少一个第一分类及该第一分类对应的第二概率值;响应于至少一个第二概率值中的最大第二概率值大于第二预设阈值,将所述输入文本识别为所述输入文本所属的逻辑回归模型的错误样本。该实施方式实现了高效率地识别错误样本。

Description

错误样本识别方法和装置
技术领域
本申请涉及计算机技术领域,具体涉及机器学习技术领域,尤其涉及错误样本识别方法和装置。
背景技术
机器学习是利用一些方法来使机器实现人的学习行为,以便获取新的知识或技能,并重新组织已有的知识结构使之不断改善自身的性能。通过机器学习的方法训练出来的逻辑回归模型在使用过程中,往往会产生一些不符合用户心理预期的错误样本(bad case)。为了样本中识别出错误样本,现有技术通常是由人工进行识别。
然而,在样本数量很大的情况下,通过人工来识别错误样本中的错误样本,效率十分低下。
发明内容
本申请的目的在于提出一种改进的错误样本识别方法和装置,来解决以上背景技术部分提到的技术问题。
第一方面,本申请提供了一种错误样本识别方法,所述方法包括:获取输入信息,其中,所述输入信息包括输入文本和指示信息,其中,所述指示信息用于指示所述输入文本所属的预先训练的逻辑回归模型,其中,逻辑回归模型包括:特征词、特征词对应的第一分类、特征词在向量空间中位置和特征词对应的权重;通过输入文本所属的逻辑回归模型得出所述输入文本对应的至少一个第一分类及该第一分类对应的第一概率值;响应于至少一个第一概率值中的每个第一概率值均小于第一预设阈值,通过至少一个关联逻辑回归模型得到所述输入文本对应的至少一个第一分类及该第一分类对应的第二概率值,其中,所述关联逻辑回归模型与所述输入文本所属的逻辑回归模型有相同的第一分类;响应于至少一个第二概率值中的最大第二概率值大于第二预设阈值,将所述输入文本识别为所述输入文本所属的逻辑回归模型的错误样本。
在一些实施例中,所述通过输入文本所属的逻辑回归模型得出所述输入文本对应的至少一个第一分类及该第一分类对应的第一概率值,包括:通过所述输入文本所属的逻辑回归模型对所述输入文本进行分词,得到第一词语集合;基于所述第一词语集合以及所述输入文本所属的逻辑回归模型,通过逻辑回归算法,获得所述输入文本对应的至少一个第一分类及该第一分类对应的第一概率值。
在一些实施例中,所述基于所述第一词语集合以及所述输入文本所属的逻辑回归模型,通过逻辑回归算法,获得所述输入文本对应的至少一个第一分类及该第一分类对应的第一概率值,包括:将所述第一词语集合中的词语与所述输入文本所属的逻辑回归模型的特征词进行匹配,得出匹配结果;根据所述匹配结果获取所述词语对应的特征值的空间向量的位置和权重值,并生成空间向量;将所述词语对应的空间向量设置为逻辑回归算法的输入值计算所述输入文本对应的至少一个第一分类及该第一分类对应的第一概率值。
在一些实施例中,响应于至少一个第一概率值中的每个第一概率值均小于第一预设阈值,通过至少一个关联逻辑回归模型得到所述输入文本对应的至少一个第一分类及该第一分类对应的第二概率值,包括:判断至少一个第一概率值中的每个第一概率值是否均小于第一预设阈值;如果是,则通过至少一个关联逻辑回归模型对所述输入文本进行分词,得到第二词语集合;基于所述第二词语集合以及至少一个关联逻辑回归模型中的每个关联逻辑回归模型,通过逻辑回归算法,获得所述输入文本的与所述至少一个关联逻辑回归模型中的每个关联逻辑回归模型对应的至少一个第一分类及该第一分类对应的第二概率值。
在一些实施例中,所述通过至少一个关联逻辑回归模型对所述输入文本进行分词,得到第二词语集合,包括:
选取至少一个所述输入文本所属的逻辑回归模型的关联逻辑回归模型;按照相同的第一分类的数量由大到小的对至少一个关联逻辑回归模型进行排序;根据所述排序的顺序选取关联逻辑回归模型对所述输入文本进行分词,得到第二词语集合。
第二方面,本申请提供了一种错误样本识别装置,所述装置包括:获取模块,用于获取输入信息,其中,所述输入信息包括输入文本和指示信息,其中,所述指示信息用于指示所述输入文本所属的预先训练的逻辑回归模型,其中,逻辑回归模型包括:特征词、特征词对应的第一分类、特征词在向量空间中位置和特征词对应的权重;第一计算模块,用于通过输入文本所属的逻辑回归模型得出所述输入文本对应的至少一个第一分类及该第一分类对应的第一概率值;第二计算模块,用于响应于至少一个第一概率值中的每个第一概率值均小于第一预设阈值,通过至少一个关联逻辑回归模型得到所述输入文本对应的至少一个第一分类及该第一分类对应的第二概率值,其中,所述关联逻辑回归模型与所述输入文本所属的逻辑回归模型有相同的第一分类;识别模块,用于响应于至少一个第二概率值中的最大第二概率值大于第二预设阈值,将所述输入文本识别为所述输入文本所属的逻辑回归模型的错误样本。
在一些实施例中,所述第一计算模块,进一步用于:通过所述输入文本所属的逻辑回归模型对所述输入文本进行分词,得到第一词语集合;基于所述第一词语集合以及所述输入文本所属的逻辑回归模型,通过逻辑回归算法,获得所述输入文本对应的至少一个第一分类及该第一分类对应的第一概率值。
在一些实施例中,所述第一计算模块,进一步用于:将所述第一词语集合中的词语与所述输入文本所属的逻辑回归模型的特征词进行匹配,得出匹配结果;根据所述匹配结果获取所述词语对应的特征值的空间向量的位置和权重值,并生成空间向量;将所述词语对应的空间向量设置为逻辑回归算法的输入值计算所述输入文本对应的至少一个第一分类及该第一分类对应的第一概率值。
在一些实施例中,所述第二计算模块,进一步用于:判断至少一个第一概率值中的每个第一概率值是否均小于第一预设阈值;如果是,则通过至少一个关联逻辑回归模型对所述输入文本进行分词,得到第二词语集合;基于所述第二词语集合以及至少一个关联逻辑回归模型中的每个关联逻辑回归模型,通过逻辑回归算法,获得所述输入文本的与所述至少一个关联逻辑回归模型中的每个关联逻辑回归模型对应的至少一个第一分类及该第一分类对应的第二概率值。
在一些实施例中,所述第二计算模块,进一步用于:选取至少一个所述输入文本所属的逻辑回归模型的关联逻辑回归模型;按照相同的第一分类的数量由大到小的对至少一个关联逻辑回归模型进行排序;根据所述排序的顺序选取关联逻辑回归模型对所述输入文本进行分词,得到第二词语集合。
本申请提供的错误样本识别方法和装置,通过首先获取输入信息,然后通过输入文本所属的逻辑回归模型得出所述输入文本对应的至少一个第一分类及该第一分类对应的第一概率值;再后响应于至少一个第一概率值中的每个第一概率值均小于第一预设阈值,通过至少一个关联逻辑回归模型得到所述输入文本对应的至少一个第一分类及该第一分类对应的第二概率值;最后响应于至少一个第二概率值中的最大第二概率值大于第二预设阈值,将所述输入文本识别为所述输入文本所属的逻辑回归模型的错误样本,从而有效利用了关联逻辑回归模型,实现了高效率地识别错误样本。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性系统架构图;
图2是根据本申请的错误样本识别方法的一个实施例的流程图;
图3是根据本申请的错误样本识别方法的又一个实施例的流程图;
图4是根据本申请的错误样本识别装置的一个实施例的结构示意图;
图5是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的错误样本识别方法或装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种客户端应用软件,例如输入法应用、聊天工具应用、购物类应用、浏览器应用、社交平台软件等。
终端设备101、102、103可以是支持收发消息的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上的聊天工具应用、购物类应用等提供支持的数据库服务器或云服务器。服务器可以对接收到的数据进行存储、分析等处理,并将处理结果反馈给终端设备。
需要说明的是,本申请实施例所提供的错误样本识别方法通常由服务器105执行。相应地,错误样本识别装置通常设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的错误样本识别方法的一个实施例的流程200。上述的错误样本识别方法,包括以下步骤:
步骤201,获取输入信息。
在本实施例中,错误样本识别方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或无线连接方式从用户利用其进行信息输入的终端获取输入信息。
在本实施例中,上述输入信息包括输入文本和指示信息,其中,上述输入文本可以是由用户直接输入的文字形成的文本,也可以是通过语音助手等具有语音助手功能的软件获取的用户的语音转化而来的文本。在这里,指示信息用于指示上述输入文本所属的预先训练的逻辑回归模型,其中,逻辑回归模型包括:特征词、特征词对应的第一分类、特征词在向量空间中的位置和特征词对应的权重。作为示例,手机主题的逻辑回归模型具有“内存”“耳机”“屏幕”等第一分类,“内存”这一第一分类下有“16G”这个特征词,“16G”这个特征词在上述逻辑回归模型中的空间向量的位置是5、权重值为w,则该词对应的特征向量可以是[0,0,0,0,w,0,......]。
在本实施例的一些可选的实现方式中,指示信息可以是链接,链接的主题预先与某一逻辑回归模型绑定,那该逻辑回归模型即是输入文本所属的逻辑回归模型;作为示例,在网购类应用的某一页面中,用户在交互对话框中输入“这个手机的内存是多大?”,“这个手机的内存是多大?”是输入文本,可以将此页面的链接作为指示信息,在电商的商品分类列表中查找此链接对应的页面中的商品种类作为商品主题,例如,上述链接对应的种类是“手机”,那么,将预先建立的手机主题的逻辑回归模型确定为上述输入文本所属的逻辑回归模型。
在本实施例的一些可选的实现方式中,指示信息可以是一个标识,上述标识直接显示上述文本所属的逻辑回归模型;作为示例,有A、B、C三个逻辑回归模型,某一输入文本的指示信息是A,那么A逻辑回归模型即为此输入文本所属的逻辑回归模型。
在本实施例的一些可选的实现方式中,指示信息可以是输入文本中的关键词,将此关键词从输入文本中提取出来作为指示信息,通过将关键词和预先建立的逻辑回归模型的关键词集合比对,确定输入文本所属的逻辑回归模型;作为示例,在网购类应用的某一页面中,用户在交互对话框中输入“这个手机的内存是多大?”,“这个手机的内存是多大?”是输入文本,可以提取上述输入文本中的“手机”一词作为关键词,该关键词与预先建立的手机主题的逻辑回归模型的关键词“手机”相同,则将预先建立的手机主题的逻辑回归模型确定为上述输入文本所属的逻辑回归模型。
步骤202,通过输入文本所属的逻辑回归模型得出输入文本对应的至少一个第一分类及该第一分类对应的第一概率值。
在本实施例中,基于步骤201得到的输入信息和上述输入信息的输入文本所属的逻辑回归模型,用上述逻辑回归模型得到输入文本对应的至少一个第一分类和上述输入文本属于该第一分类的第一概率值。
在本实施例的一些可选的实现方式中,可以先从输入文本所属的逻辑回归模型中选取至少一个第一分类,然后通过关键词匹配得到输入文本属于此第一分类的第一概率值。作为示例,对于“这个手机的内存是多大?”的输入文本和手机主题的逻辑回归模型,可以先选取“内存”“耳机”等第一分类,然后将“内存”这一关键词与各个第一分类的预存的关键词进行比对,可以得出“内存”这一关键词属于“内存”这一第一分类的第一概率值是a,得出“内存”这一关键词属于“耳机”这一第一分类的第一概率值是b。
在本实施例的一些可选的实现方式中,可以通过上述输入文本所属的逻辑回归模型对上述输入文本进行分词,得到第一词语集合;基于上述第一词语集合以及上述输入文本所属的逻辑回归模型,通过逻辑回归算法,获得上述输入文本对应的至少一个第一分类及该第一分类对应的第一概率值。
步骤203,响应于至少一个第一概率值中的每个第一概率值均小于第一预设阈值,通过关联逻辑回归模型得到上述输入文本对应的至少一个第一分类及该第一分类对应的第二概率值。
在本实施例中,首先判断基于步骤202得到至少一个第一概率值与第一预设阈值的大小,如果上述至少一个第一概率值中的每个第一概率值均小于第一预设阈值,那么通过关联逻辑回归模型得到输入文本对应的至少一个第一分类和上述输入文本属于该第一分类的第二概率值。在这里,上述关联逻辑回归模型与上述输入文本所属的逻辑回归模型有相同的第一分类。作为示例,手机主题的逻辑回归模型具有“内存”“耳机”、“屏幕”这三个第一分类,电脑主题的逻辑回归模型具有“内存”、“屏幕”、“镜头”、“鼠标”这四个第一分类,那么手机主题的逻辑回归模型与电脑主题的逻辑回归模型的有“内存”和“屏幕”这两个相同的第一分类,那么手机主题的逻辑回归模型和电脑主题的逻辑回归模型就是相关联的逻辑回归模型,手机主题的逻辑回归模型和电脑主题的逻辑回归模型互为对方的关联逻辑回归模型。
在本实施例的一些可选的实现方式中,可以通过至少一个关联逻辑回归模型对上述输入文本进行分词,得到第二词语集合,其中,上述关联逻辑回归模型与上述输入文本所属的逻辑回归模型有相同的第一分类;基于上述第二词语集合以及至少一个关联逻辑回归模型中的每个关联逻辑回归模型,通过逻辑回归算法,获得上述输入文本的与上述至少一个关联逻辑回归模型中的每个关联逻辑回归模型对应的至少一个第一分类及该第一分类对应的第二概率值。
在本实施例的本步骤203中,通过关联逻辑回归模型得到上述输入文本对应的至少一个第一分类及该第一分类对应的第二概率值的方法,可以借鉴本实施例的步骤202中通过输入文本所属的逻辑回归模型得出输入文本对应的至少一个第一分类及该第一分类对应的第一概率值的方法,在此不再赘述。
步骤204,响应于至少一个第二概率值中的最大第二概率值大于第二预设阈值,将输入文本识别为输入文本所属的逻辑回归模型的错误样本。
在本实施例中,基于步骤203得到的至少一个第二概率值,首先从至少一个第二概率值中的选取出最大的第二概率值作为最大第二概率值,然后将最大第二概率值与第二预设阈值进行比较,如果上述最大第二概率值大于第二预设阈值,那么将上述输入文本识别为上述输入文本所属的逻辑回归模型的错误样本。当然,上述第二预设阈值与上述第一预设阈值可以相等,上述第二预设阈值与上述第一预设阈值也可以不相等。
继续参见图3,图3是根据本实施例的错误样本识别方法的应用场景的一个示意图。在图3的应用场景中:
用户打开网购类应用的某一品牌的手机商品的页面,在交互对话框301中输入“这个手机的镜头是多少像素的?”。之后,服务器可以在后台获取上述输入文本和指示信息,以指示信息是链接为例,服务器提取出该页面的链接,并确定链接指示的某一品牌的手机在商品分类列表中位置为“手机”这一分类。再后,服务器可以确定“这个手机的镜头是多少像素的?”这一输入文本所属的逻辑回归模型是手机主题的逻辑回归模型。
上述服务器用手机主题的逻辑回归模型得出上述输入文本对应的至少一个第一分类及该第一分类对应的第一概率值。例如,在上述手机主题的逻辑回归模型中有“内存”和“耳机”两个第一分类,得到上述输入文本属于“内存”这一分类的第一概率是a,上述输入文本属于“耳机”这一分类的第一概率是b。
上述服务器将第一概率a与第一预设阈值比较,上述服务器将第一概率b与第一预设阈值比较,如果a和b均小于第一预设阈值,手机主题的逻辑回归模型将上述输入文本判定为非业务语料,其中,上述非业务语料是指与商品主题无关的语料,例如用户的一些闲聊。但对于手机主题的逻辑回归模型来说,得出的第一概率均小于第一预设阈值,可能的情况有两种,一种是输入文本就是非业务语料,还有一种是手机主题的逻辑回归模型在之前的模型训练过程中没有学习到“镜头”的相关信息,导致手机主题的逻辑回归模型不能对“这个手机的镜头是多少像素的?”进行准确预测。
响应于a和b均小于预设阈值,那么上述服务器查找到手机主题逻辑回归模型的关联逻辑回归模型是电脑主题逻辑回归模型,其中,电脑主题逻辑回归模型包括“内存”、“屏幕”、“镜头”、“鼠标”这四个第一分类。将“这个手机的镜头是多少像素的?”输入电脑主题逻辑回归模型,得到“内存”、“屏幕”、“镜头”、“鼠标”这四个第一分类对应的第一概率分别是c、d、e、f,其中,“镜头”对应的e值最大,而且e大于第二预设阈值。这种情况说明,“这个手机的镜头是多少像素的?”本应该是业务语料,只是手机主题的逻辑回归模型之前没有学习到相关的信息,导致误判。
在a和b均小于第一预设阈值,e大于第二预设阈值的情况下,上述服务器识别“这个手机的镜头是多少像素的?”这个输入文本是手机主题的逻辑回归模型的错误样本。
本申请的上述实施例提供的方法通过利用输入文本上述的逻辑回归模型的关联逻辑回归模型对输入文本再次计算,实现了高效率地识别错误样本。
进一步参考图3,其示出了错误样本识别方法的又一个实施例的流程300。该错误样本识别方法的流程300,包括以下步骤:
步骤301,获取输入信息。
在本实施例中,错误样本识别方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或无线连接方式从用户利用其进行信息输入的终端获取输入信息。
在本实施例中,上述输入信息包括输入文本和指示信息,其中,上述输入文本可以是由用户直接输入的文字形成的文本,也可以是通过语音助手等具有语音功能的软件获取的用户的语音转化而来的文本。在这里,指示信息用于指示上述输入文本所属的预先训练的逻辑回归模型,其中,逻辑回归模型包括:特征词、特征词对应的第一分类、特征词在向量空间中的位置和特征词对应的权重。
步骤302,通过输入文本所属的逻辑回归模型对输入文本进行分词,得到第一词语集合。
在本实施例中,上述电子设备(例如图1所示的服务器)可以通过通过输入文本所属的逻辑回归模型中的各种分词算法和预设的分词词语集合对上述输入文本进行分词,得到第一词语集合。
步骤303,基于上述第一词语集合以及上述输入文本所属的逻辑回归模型,通过逻辑回归算法,获得上述输入文本对应的至少一个第一分类及该第一分类对应的第一概率值。
在本实施例中,从上述输入文本所属的逻辑回归模型中获取步骤302得到的第一词语集合中各个词语,将上述第一词语集合中的词语与上述输入文本所属的逻辑回归模型的特征词进行匹配,得出匹配结果;根据上述匹配结果获取上述词语对应的特征值的空间向量的位置和权重值,并生成空间向量;将上述词语对应的空间向量设置为逻辑回归算法的输入值计算上述输入文本对应的至少一个第一分类及该第一分类对应的第一概率值。例如,例如,输入文本为“这个手机的镜头是多少像素的?”,上述“手机”这个词在上述逻辑回归模型中的空间向量的位置是5、权重值为w,则该词对应的特征向量可以是[0,0,0,0,w,0,......],上述“像素”这个词在上述逻辑回归模型中的空间向量的位置是6、权重值为z,则该词对应的特征向量可以是[0,0,0,0,0,0,z,0,......],将上述两个特征向量输入上述逻辑回归模型,通过预定的逻辑回归算法(例如,使用liblinear这一逻辑回归工具),即可得出该输入文本对应的第一分类和概率值。
步骤304,判断至少一个第一概率值中的每个第一概率值是否均小于第一预设阈值。
在本实施例中,首先判断基于步骤303得到至少一个第一概率值与第一预设阈值的大小,如果上述至少一个第一概率值中的每个第一概率值均小于第一预设阈值,说明上述输入文本所属的逻辑回归模型将上述输入文本判定为非业务语料。
步骤305,如果是,则通过至少一个关联逻辑回归模型对上述输入文本进行分词,得到第二词语集合。
在本实施例中,如果至少一个第一概率值中的每个第一概率值均小于预定阈值,选取至少上述输入文本所属的逻辑回归模型的关联逻辑回归模型;按照相同的第一分类的数量由大到小的对至少一个关联逻辑回归模型进行排序;根据上述排序的顺序选取关联逻辑回归模型对上述输入文本进行分词,得到第二词语集合。
步骤306,基于上述第二词语集合以及至少一个关联逻辑回归模型中的每个关联逻辑回归模型,通过逻辑回归算法,获得输入文本的与至少一个关联逻辑回归模型中的每个关联逻辑回归模型对应的至少一个第一分类及该第一分类对应的第二概率值。
在本实施例的本步骤306中,通过关联逻辑回归模型得到上述输入文本对应的至少一个第一分类及该第一分类对应的第二概率值的方法,可以借鉴本实施例的步骤303中通过输入文本所属的逻辑回归模型得出输入文本对应的至少一个第一分类及该第一分类对应的第一概率值的方法,在此不再赘述。
步骤307,响应于至少一个第二概率值中的最大第二概率值大于第二预设阈值,将上述输入文本识别为上述输入文本所属的逻辑回归模型的错误样本。
在本实施例中,基于步骤306得到的至少一个第二概率值,首先从至少一个第二概率值中的选取出最大的第二概率值作为最大第二概率值,然后将最大第二概率值与第二预设阈值进行比较,如果上述最大第二概率值大于第二预设阈值,那么将上述输入文本识别为上述输入文本所属的逻辑回归模型的错误样本。当然,上述第二预设阈值与上述第一预设阈值可以相等,上述第二预设阈值与上述第一预设阈值也可以不相等。
从图3中可以看出,与图2对应的实施例相比,本实施例中的错误样本识别方法的流程300突出了使用不同的逻辑回归模型对输入文本进行分词的步骤,消除了输入文本所属的逻辑回归模型缺少对应的特征词的导致的分词不准确的情况。由此,本实施例描述的方案可以实现更准确地识别错误样本。
进一步参考图4,作为对上述各图所示方法的实现,本申请提供了一种错误样本识别装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图4所示,本实施例上述的错误样本识别装置400包括:获取模块401、第一计算模块402、第二计算模块403和识别模块404。其中,获取模块401配置用于获取输入信息,其中,上述输入信息包括输入文本和指示信息,其中,上述指示信息用于指示上述输入文本所属的预先训练的逻辑回归模型,其中,逻辑回归模型包括:特征词、特征词对应的第一分类、特征词在向量空间中位置和特征词对应的权重;,其中,上述网页浏览请求包括网址;第一计算模块402配置用于通过输入文本所属的逻辑回归模型得出上述输入文本对应的至少一个第一分类及该第一分类对应的第一概率值;第二计算模块403配置用于响应于至少一个第一概率值中的每个第一概率值均小于第一预设阈值,通过至少一个关联逻辑回归模型得到上述输入文本对应的至少一个第一分类及该第一分类对应的第二概率值,其中,上述关联逻辑回归模型与上述输入文本所属的逻辑回归模型有相同的第一分类;而识别模块404配置用于响应于至少一个第二概率值中的最大第二概率值大于第二预设阈值,将上述输入文本识别为上述输入文本所属的逻辑回归模型的错误样本。
在本实施例中,错误样本识别装置400的获取模块401可以通过有线连接方式或无线连接方式从用户利用其进行信息输入的终端获取输入信息。上述输入信息包括输入文本和指示信息,其中,上述输入文本可以是由用户直接输入的文字形成的文本,也可以是通过语音助手等具有语音助手功能的软件获取的用户的语音转化而来的文本。在这里,指示信息用于指示上述输入文本所属的预先训练的逻辑回归模型,其中,逻辑回归模型包括:特征词、特征词对应的第一分类、特征词在向量空间中的位置和特征词对应的权重。
在本实施例中,基于获取模块401得到的输入信息和上述输入信息的输入文本所属的逻辑回归模型,错误样本识别装置400的第一计算模块402用上述逻辑回归模型得到输入文本对应的至少一个第一分类和上述输入文本属于该第一分类的第一概率值。
在本实施例中,首先判断基于第一计算模块402得到至少一个第一概率值与第一预设阈值的大小,如果上述至少一个第一概率值中的每个第一概率值均小于第一预设阈值,那么错误样本识别装置400的第二计算模块403通过关联逻辑回归模型得到输入文本对应的至少一个第一分类和上述输入文本属于该第一分类的第二概率值。在这里,上述关联逻辑回归模型与上述输入文本所属的逻辑回归模型有相同的第一分类。
在本实施例中,基于第二计算模块403得到的至少一个第二概率值,错误样本识别装置400的识别模块404首先从至少一个第二概率值中的选取出最大的第二概率值作为最大第二概率值,然后将最大第二概率值与第二预设阈值进行比较,如果上述最大第二概率值大于第二预设阈值,那么将上述输入文本识别为上述输入文本所属的逻辑回归模型的错误样本。当然,上述第二预设阈值与上述第一预设阈值可以相等,上述第二预设阈值与上述第一预设阈值也可以不相等。
本领域技术人员可以理解,上述错误样本识别装置400还包括一些其他公知结构,例如处理器、存储器等,为了不必要地模糊本公开的实施例,这些公知的结构在图4中未示出。
下面参考图5,其示出了适于用来实现本申请实施例的服务器的计算机系统500的结构示意图。
如图5所示,计算机系统500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,上述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括获取模块、第一计算模块、第二计算模块和识别模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,获取模块还可以被描述为“获取输入信息的模块”。
作为另一方面,本申请还提供了一种非易失性计算机存储介质,该非易失性计算机存储介质可以是上述实施例中上述装置中所包含的非易失性计算机存储介质;也可以是单独存在,未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序,当上述一个或者多个程序被一个设备执行时,使得上述设备:获取输入信息,通过输入文本所属的逻辑回归模型得出上述输入文本对应的至少一个第一分类及该第一分类对应的第一概率值;响应于至少一个第一概率值中的每个第一概率值均小于第一预设阈值,通过至少一个关联逻辑回归模型得到上述输入文本对应的至少一个第一分类及该第一分类对应的第二概率值;响应于至少一个第二概率值中的最大第二概率值大于第二预设阈值,将上述输入文本识别为上述输入文本所属的逻辑回归模型的错误样本。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (10)

1.一种错误样本识别方法,其特征在于,所述方法包括:
获取输入信息,其中,所述输入信息包括输入文本和指示信息,其中,所述指示信息用于指示所述输入文本所属的预先训练的逻辑回归模型,其中,逻辑回归模型包括:特征词、特征词对应的第一分类、特征词在向量空间中位置和特征词对应的权重;
通过输入文本所属的逻辑回归模型得出所述输入文本对应的至少一个第一分类及该第一分类对应的第一概率值;
响应于至少一个第一概率值中的每个第一概率值均小于第一预设阈值,通过至少一个关联逻辑回归模型得到所述输入文本对应的至少一个第一分类及该第一分类对应的第二概率值,其中,所述关联逻辑回归模型与所述输入文本所属的逻辑回归模型有相同的第一分类;
响应于至少一个第二概率值中的最大第二概率值大于第二预设阈值,将所述输入文本识别为所述输入文本所属的逻辑回归模型的错误样本。
2.根据权利要求1所述的方法,其特征在于,所述通过输入文本所属的逻辑回归模型得出所述输入文本对应的至少一个第一分类及该第一分类对应的第一概率值,包括:
通过所述输入文本所属的逻辑回归模型对所述输入文本进行分词,得到第一词语集合;
基于所述第一词语集合以及所述输入文本所属的逻辑回归模型,通过逻辑回归算法,获得所述输入文本对应的至少一个第一分类及该第一分类对应的第一概率值。
3.根据权利要求2所述的方法,其特征在于,所述基于所述第一词语集合以及所述输入文本所属的逻辑回归模型,通过逻辑回归算法,获得所述输入文本对应的至少一个第一分类及该第一分类对应的第一概率值,包括:
将所述第一词语集合中的词语与所述输入文本所属的逻辑回归模型的特征词进行匹配,得出匹配结果;
根据所述匹配结果获取所述词语对应的特征值的空间向量的位置和权重值,并生成空间向量;
将所述词语对应的空间向量设置为逻辑回归算法的输入值计算所述输入文本对应的至少一个第一分类及该第一分类对应的第一概率值。
4.根据权利要求1-3任一项所述的方法,其特征在于,响应于至少一个第一概率值中的每个第一概率值均小于第一预设阈值,通过至少一个关联逻辑回归模型得到所述输入文本对应的至少一个第一分类及该第一分类对应的第二概率值,包括:
判断至少一个第一概率值中的每个第一概率值是否均小于第一预设阈值;
如果是,则通过至少一个关联逻辑回归模型对所述输入文本进行分词,得到第二词语集合;
基于所述第二词语集合以及至少一个关联逻辑回归模型中的每个关联逻辑回归模型,通过逻辑回归算法,获得所述输入文本的与所述至少一个关联逻辑回归模型中的每个关联逻辑回归模型对应的至少一个第一分类及该第一分类对应的第二概率值。
5.根据权利要求4所述的方法,其特征在于,所述通过至少一个关联逻辑回归模型对所述输入文本进行分词,得到第二词语集合,包括:
选取至少一个所述输入文本所属的逻辑回归模型的关联逻辑回归模型;
按照相同的第一分类的数量由大到小的对至少一个关联逻辑回归模型进行排序;
根据所述排序的顺序选取关联逻辑回归模型对所述输入文本进行分词,得到第二词语集合。
6.一种错误样本识别装置,其特征在于,所述装置包括:
获取模块,用于获取输入信息,其中,所述输入信息包括输入文本和指示信息,其中,所述指示信息用于指示所述输入文本所属的预先训练的逻辑回归模型,其中,逻辑回归模型包括:特征词、特征词对应的第一分类、特征词在向量空间中位置和特征词对应的权重;
第一计算模块,用于通过输入文本所属的逻辑回归模型得出所述输入文本对应的至少一个第一分类及该第一分类对应的第一概率值;
第二计算模块,用于响应于至少一个第一概率值中的每个第一概率值均小于第一预设阈值,通过至少一个关联逻辑回归模型得到所述输入文本对应的至少一个第一分类及该第一分类对应的第二概率值,其中,所述关联逻辑回归模型与所述输入文本所属的逻辑回归模型有相同的第一分类;
识别模块,用于响应于至少一个第二概率值中的最大第二概率值大于第二预设阈值,将所述输入文本识别为所述输入文本所属的逻辑回归模型的错误样本。
7.根据权利要求6所述的装置,其特征在于,所述第一计算模块,进一步用于:
通过所述输入文本所属的逻辑回归模型对所述输入文本进行分词,得到第一词语集合;
基于所述第一词语集合以及所述输入文本所属的逻辑回归模型,通过逻辑回归算法,获得所述输入文本对应的至少一个第一分类及该第一分类对应的第一概率值。
8.根据权利要求7所述的装置,其特征在于,所述第一计算模块,进一步用于:
将所述第一词语集合中的词语与所述输入文本所属的逻辑回归模型的特征词进行匹配,得出匹配结果;
根据所述匹配结果获取所述词语对应的特征值的空间向量的位置和权重值,并生成空间向量;
将所述词语对应的空间向量设置为逻辑回归算法的输入值计算所述输入文本对应的至少一个第一分类及该第一分类对应的第一概率值。
9.根据权利要求6-8任一项所述的装置,其特征在于,所述第二计算模块,进一步用于:
判断至少一个第一概率值中的每个第一概率值是否均小于第一预设阈值;
如果是,则通过至少一个关联逻辑回归模型对所述输入文本进行分词,得到第二词语集合;
基于所述第二词语集合以及至少一个关联逻辑回归模型中的每个关联逻辑回归模型,通过逻辑回归算法,获得所述输入文本的与所述至少一个关联逻辑回归模型中的每个关联逻辑回归模型对应的至少一个第一分类及该第一分类对应的第二概率值。
10.根据权利要求9所述的装置,其特征在于,所述第二计算模块,进一步用于:
选取至少一个所述输入文本所属的逻辑回归模型的关联逻辑回归模型;
按照相同的第一分类的数量由大到小的对至少一个关联逻辑回归模型进行排序;
根据所述排序的顺序选取关联逻辑回归模型对所述输入文本进行分词,得到第二词语集合。
CN201610221936.6A 2016-04-11 2016-04-11 错误样本识别方法和装置 Active CN107291774B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610221936.6A CN107291774B (zh) 2016-04-11 2016-04-11 错误样本识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610221936.6A CN107291774B (zh) 2016-04-11 2016-04-11 错误样本识别方法和装置

Publications (2)

Publication Number Publication Date
CN107291774A true CN107291774A (zh) 2017-10-24
CN107291774B CN107291774B (zh) 2020-02-07

Family

ID=60095830

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610221936.6A Active CN107291774B (zh) 2016-04-11 2016-04-11 错误样本识别方法和装置

Country Status (1)

Country Link
CN (1) CN107291774B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108563722A (zh) * 2018-04-03 2018-09-21 有米科技股份有限公司 文本信息的行业分类方法、系统、计算机设备和存储介质
CN110796153A (zh) * 2018-08-01 2020-02-14 阿里巴巴集团控股有限公司 一种训练样本的处理方法、装置
CN111382340A (zh) * 2020-03-20 2020-07-07 北京百度网讯科技有限公司 信息识别方法、信息识别装置和电子设备
CN111582193A (zh) * 2020-05-09 2020-08-25 北京世纪好未来教育科技有限公司 坏例识别及其模型优化方法、装置及计算机存储介质
CN113743532A (zh) * 2021-09-16 2021-12-03 睿云奇智(重庆)科技有限公司 异常检测方法、装置、设备及计算机存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199898A (zh) * 2014-08-26 2014-12-10 百度在线网络技术(北京)有限公司 一种属性信息的获取方法及装置、推送方法及装置
CN104462378A (zh) * 2014-12-09 2015-03-25 北京国双科技有限公司 用于文本识别的数据处理方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199898A (zh) * 2014-08-26 2014-12-10 百度在线网络技术(北京)有限公司 一种属性信息的获取方法及装置、推送方法及装置
CN104462378A (zh) * 2014-12-09 2015-03-25 北京国双科技有限公司 用于文本识别的数据处理方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张明镜: "基于特征提取的文本相似性判别方法研究与应用", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108563722A (zh) * 2018-04-03 2018-09-21 有米科技股份有限公司 文本信息的行业分类方法、系统、计算机设备和存储介质
CN110796153A (zh) * 2018-08-01 2020-02-14 阿里巴巴集团控股有限公司 一种训练样本的处理方法、装置
CN110796153B (zh) * 2018-08-01 2023-06-20 阿里巴巴集团控股有限公司 一种训练样本的处理方法、装置
CN111382340A (zh) * 2020-03-20 2020-07-07 北京百度网讯科技有限公司 信息识别方法、信息识别装置和电子设备
CN111582193A (zh) * 2020-05-09 2020-08-25 北京世纪好未来教育科技有限公司 坏例识别及其模型优化方法、装置及计算机存储介质
CN113743532A (zh) * 2021-09-16 2021-12-03 睿云奇智(重庆)科技有限公司 异常检测方法、装置、设备及计算机存储介质
CN113743532B (zh) * 2021-09-16 2024-03-19 睿云奇智(重庆)科技有限公司 异常检测方法、装置、设备及计算机存储介质

Also Published As

Publication number Publication date
CN107291774B (zh) 2020-02-07

Similar Documents

Publication Publication Date Title
CN105426356B (zh) 一种目标信息识别方法和装置
CN110175325B (zh) 基于词向量和句法特征的评论分析方法及可视化交互界面
CN110134765B (zh) 一种基于情感分析的餐厅用户评论分析系统及方法
CN105893465A (zh) 自动问答方法和装置
CN107908789A (zh) 用于生成信息的方法和装置
CN109872162B (zh) 一种处理用户投诉信息的风控分类识别方法及系统
CN107491547A (zh) 基于人工智能的搜索方法和装置
CN112507125A (zh) 三元组信息提取方法、装置、设备及计算机可读存储介质
CN107291774A (zh) 错误样本识别方法和装置
CN108416003A (zh) 一种图片分类方法和装置、终端、存储介质
CN110110038B (zh) 话务预测方法、装置、服务器及存储介质
CN111652232B (zh) 票据识别方法及装置、电子设备和计算机可读存储介质
KR102002024B1 (ko) 객체 라벨링 처리 방법 및 객체 관리 서버
CN107832468A (zh) 需求识别方法和装置
CN107305575A (zh) 人机智能问答系统的断句识别方法和装置
CN106383875A (zh) 基于人工智能的人机交互方法和装置
CN111931859B (zh) 一种多标签图像识别方法和装置
CN107731229A (zh) 用于识别语音的方法和装置
CN105677931A (zh) 信息搜索方法和装置
CN107291775A (zh) 错误样本的修复语料生成方法和装置
CN111475613A (zh) 案件分类方法、装置、计算机设备及存储介质
CN106708940A (zh) 用于处理图片的方法和装置
US11544510B2 (en) System and method for multi-modal image classification
CN107742128A (zh) 用于输出信息的方法和装置
CN107402912A (zh) 解析语义的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant