CN109522542A - 一种识别汽车故障语句的方法及装置 - Google Patents

一种识别汽车故障语句的方法及装置 Download PDF

Info

Publication number
CN109522542A
CN109522542A CN201811081275.7A CN201811081275A CN109522542A CN 109522542 A CN109522542 A CN 109522542A CN 201811081275 A CN201811081275 A CN 201811081275A CN 109522542 A CN109522542 A CN 109522542A
Authority
CN
China
Prior art keywords
probability
sentence
words
failure
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811081275.7A
Other languages
English (en)
Other versions
CN109522542B (zh
Inventor
刘均
刘新
邓思超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Launch Technology Co Ltd
Original Assignee
Shenzhen Launch Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Launch Technology Co Ltd filed Critical Shenzhen Launch Technology Co Ltd
Priority to CN201811081275.7A priority Critical patent/CN109522542B/zh
Publication of CN109522542A publication Critical patent/CN109522542A/zh
Application granted granted Critical
Publication of CN109522542B publication Critical patent/CN109522542B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种识别汽车故障语句的方法及装置。该方法包括:获取第一语句;对所述第一语句进行分词,得到一个或多个第一词语;根据所述一个或多个第一词语中的每个第一词语进行概率计算,得到第一概率和第二概率,其中,所述第一概率为第一语句是描述故障的语句的概率,所述第二概率为第一语句非描述故障的语句的概率;根据所述第一概率和所述第二概率,确定所述第一语句的分类,其中,所述分类包括:描述故障的语句、非描述故障的语句。通过对任意一句话进行分词来识别所述语句是否为描述汽车故障的语句。可自主,高效,精确的实现对任意语句的分类,大大节省人力成本,并提高识别准确率。

Description

一种识别汽车故障语句的方法及装置
技术领域
本申请涉及人工智能技术领域,尤其涉及一种识别汽车故障语句的方法及装置。
背景技术
近些年,经济发展迅猛,人们的生活水平不断提高,越来越多的人购买了汽车。汽车为人们带来了很多便利,但归根结底,汽车也是个机器,也会有故障。而普通用户对很多故障都不熟悉,更无法有效的解决相关汽车故障,只能将故障现象反馈给相关技术人员,由技术人员对故障类型进行判断,并给出相应的解决办法。
此外,随着互联网和移动网络的快速发展,越来越多的用户通过网络以文字的方式将故障现象进行反馈,但这些反馈的文字中往往会包含大量非描述汽车故障的语句,这无疑给后续对故障类型的判断带来了巨大的工作量。现有的解决方式大多是通过人工来进行识别、筛选,而这种方式就会带来相当大的人力成本,且识别效率较低。
发明内容
本申请提供了一种识别汽车故障语句的方法及装置,以实现对任意语句是否为描述汽车故障的语句的识别。
第一方面,提供了一种识别汽车故障语句的方法,包括:获取第一语句;对所述第一语句进行分词,得到一个或多个第一词语;根据所述一个或多个第一词语中的每个第一词语进行概率计算,得到第一概率和第二概率,其中,所述第一概率为第一语句是描述故障的语句的概率,所述第二概率为第一语句非描述故障的语句的概率;根据所述第一概率和所述第二概率,确定所述第一语句的分类,其中,所述分类包括:描述故障的语句、非描述故障的语句。
在一种可能的实现方式中,所述根据所述一个或多个第一词语中的每个第一词语进行概率计算,得到第一概率和第二概率,包括:获取一句或多句训练语句;将所述训练语句进行分词,得到一个或多个第二词语;统计所述训练语句和所述一个或多个第二词语,得到第三概率、一个或多个第二词语对应的第四概率和一个或多个第二词语对应的第五概率,其中,所述第三概率为所述训练语句中出现描述故障的语句的概率,所述第四概率为所述训练语句是描述故障的语句条件下包含所述一个或多个第二词语的概率,所述第五概率为所述训练语句非描述故障的语句条件下包含所述一个或多个第二词语的概率;根据所述第三概率、所述第四概率和所述第五概率,得到所述一个或多个第一词语对应的第六概率和所述一个或多个第一词语对应的第七概率,其中,所述第六概率为在所述一个或多个第一语句包含所述一个或多个第一词语的条件下,所述第一语句是描述故障的语句的概率,所述第七概率为在所述第一语句包含所述一个或多个第一词语的条件下,所述第一语句非描述故障的语句的概率;根据所述第六概率和所述第七概率,分别确定所述第一概率和所述第二概率。
在另一种可能的实现方式中,所述根据所述第三概率、所述第四概率和所述第五概率,得到所述第六概率和所述第七概率,包括:确定所述一个或多个第一词语和所述一个或多个第二词语中相同的词语,得到一个或多个第三词语;根据所述一个或多个第三词语、所述第四概率和所述第五概率,确定一个或多个第八概率和一个或多个第九概率,其中,所述第八概率为所述第一语句是描述故障的语句的条件下包含所述一个或多个第三词语的概率,所述第九概率为所述第一语句非描述故障的语句的条件下包含所述一个或多个第三词语的概率;根据所述第三概率、所述一个或多个第八概率和所述一个或多个第九概率,得到所述一个或多个第一词语对应的第六概率和所述一个或多个第一词语对应的第七概率。
在又一种可能的实现方式中,所述根据所述第一概率和所述第二概率,确定所述第一语句的分类,包括:确定所述第一概率和所述第二概率的差值;若所述差值大于阈值,则确定所述第一语句为描述故障的语句;若所述差值小于或等于所述阈值,则确定所述第一语句非描述故障的语句。
第二方面,提供了一种识别汽车故障语句的装置,包括:获取单元,用于获取第一语句;分词单元,用于对所述第一语句进行分词,得到一个或多个第一词语;计算单元,用于根据所述一个或多个第一词语中的每个第一词语进行概率计算,得到第一概率和第二概率,其中,所述第一概率为第一语句是描述故障的语句的概率,所述第二概率为第一语句非描述故障的语句的概率;确定单元,用于根据所述第一概率和所述第二概率,确定所述第一语句的分类,其中,所述分类包括:描述故障的语句、非描述故障的语句。
在一种可能的实现方式中,所述计算单元,包括:获取子单元,用于获取一句或多句训练语句;分词子单元,用于将所述训练语句进行分词,得到一个或多个第二词语;统计子单元,用于统计所述训练语句和所述一个或多个第二词语,得到第三概率、一个或多个第二词语对应的第四概率和一个或多个第二词语对应的第五概率,其中,所述第三概率为所述训练语句中出现描述故障的语句的概率,所述第四概率为所述训练语句是描述故障的语句条件下包含所述一个或多个第二词语的概率,所述第五概率为所述训练语句非描述故障的语句条件下包含所述一个或多个第二词语的概率;第一计算子单元,用于根据所述第三概率、所述第四概率和所述第五概率,得到所述一个或多个第一词语对应的第六概率和所述一个或多个第一词语对应的第七概率,其中,所述第六概率为在所述一个或多个第一语句包含所述一个或多个第一词语的条件下,所述第一语句是描述故障的语句的概率,所述第七概率为在所述第一语句包含所述一个或多个第一词语的条件下,所述第一语句非描述故障的语句的概率;确定子单元,用于根据所述第六概率和所述第七概率,分别确定所述第一概率和所述第二概率。
在另一种可能的实现方式中,所述第一计算子单元还用于:确定所述一个或多个第一词语和所述一个或多个第二词语中相同的词语,得到一个或多个第三词语;以及根据所述一个或多个第三词语、所述第四概率和所述第五概率,确定一个或多个第八概率和一个或多个第九概率,其中,所述第八概率为所述第一语句是描述故障的语句的条件下包含所述一个或多个第三词语的概率,所述第九概率为所述第一语句非描述故障的语句的条件下包含所述一个或多个第三词语的概率;以及根据所述第三概率、所述一个或多个第八概率和所述一个或多个第九概率,得到所述一个或多个第一词语对应的第六概率和所述一个或多个第一词语对应的第七概率。
在又一种可能的实现方式中,所述确定单元,包括:第二计算子单元,用于确定所述第一概率和所述第二概率的差值;识别子单元,用于若所述差值大于阈值,则确定所述第一语句为描述故障的语句;所述识别子单元,还用于若所述差值小于或等于所述阈值,则确定所述第一语句非描述故障的语句。
第三方面,提供了一种识别汽车故障语句的装置,包括:包括处理器、存储器;所述处理器被配置为支持所述装置执行上述第一方面及其任一种可能的实现方式的方法中相应的功能。存储器用于与处理器耦合,其保存所述装置必要的程序(指令)和数据。可选的,所述装置还可以包括输入/输出接口,用于支持所述装置与其他装置之间的通信。
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面及其任一种可能的实现方式的方法。
第五方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面及其任一种可能的实现方式的方法。
本申请通过对训练语料库中训练语句的统计和贝叶斯公式,计算得到第一语句为描述故障的语句的概率和非描述故障语句的概率。再通过与阈值相比较,消除一些既可以判别为描述汽车故障的词语,也可以判别为非描述故障词语,对最终分类结果带来的影响。同时,通过统计训练的方式,确定阈值的最优值,即将本申请的识别准确率提高到最大。最终,可自主,高效,精确的实现对任意语句的分类。
附图说明
为了更清楚地说明本申请实施例或背景技术中的技术方案,下面将对本申请实施例或背景技术中所需要使用的附图进行说明。
图1为本申请实施例提供的一种识别汽车故障语句的方法的流程示意图;
图2为本申请实施例提供的另一种识别汽车故障语句的方法的流程示意图;
图3为本申请实施例提供的一种识别汽车故障语句的装置的结构示意图;
图4为本申请实施例提供的一种识别汽车故障语句的装置的硬件结构示意图。
具体实施方式
下面结合本申请实施例中的附图对本申请实施例进行描述。
请参阅图1,图1是本申请实施例提供的一种识别汽车故障语句的方法的流程示意图。
S101、获取第一语句。
本申请实施例可对任意一句语句进行识别,可选地,该语句可以为单独的一句话,也可为一段文字中的任意一句话,还可以是一篇文章中的任意一句话。首先,从待识别文字中获取第一语句,其中,待识别文字可为一篇文章或一段文字或一句话,第一语句为待识别的语句。
S102、对第一语句进行分词,得到一个或多个第一词语。
对第一语句进行分词,得到一个或多个第一词语,是通过分词工具完成的。该分词工具是基于理解的分词方法完成分词的,即通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。
S103、根据一个或多个第一词语中的每个第一词语进行概率计算,得到第一概率和第二概率。
步骤S102可将任意第一语句分词成一个或多个第一词语,再通过贝叶斯公式计算得到在第一语句包含第一词语的条件下,第一语句分别为描述汽车故障的语句的概率和非描述故障的语句的概率。再结合所有第一词语的相应的上述两个概率,计算得到第一语句为描述汽车故障的语句的概率和非描述故障的语句的概率,即为第一概率和第二概率。
S104、根据第一概率和所述第二概率,确定所述第一语句的分类。
用第一概率减去第二概率,得到差值,再用得到的差值与阈值相比,若差值大于阈值,则确定第一语句为描述汽车故障的语句,若差值小于或等于阈值,则确定第一语句为非描述故障的语句。
可选地,阈值可通过测试选取出最优值。
本申请实施例通过对任意语句进行分词,得到一个或多个词语,再基于得到的词语和贝叶斯公式,计算得到该语句为描述故障的语句的概率和非描述故障语句的概率。此外,通过阈值将上述概率与阈值相比较,消除一些既可以判别为描述汽车故障的词语,也可以判别为非描述故障词语,对最终分类结果带来的影响阈值,可提高本申请的识别准确率,进而可自主,高效,精确的实现对任意语句的分类。
请参阅图2,图2是本申请实施例提供的另一种识别汽车故障语句的方法的流程示意图。
S201、获取第一语句。
近几年,互联网和移动网络发展迅猛,越来越多的汽车用户都通过各种网路渠道将使用汽车遇到问题进行反馈,这些反馈大多是以文字的形式给出,如:论坛、贴吧、社区。由于这些反馈量非常大,根据用户反馈的文字信息,确定用户所描述的故障类型,并给出相应的解决办法,将会是个非常大的工作量,需要投入大量的人力成本。而且,很多但在用户输入的反馈文字中,也会存在很多非描述汽车故障的语句,这更是加大了后续对描述故障类型的区分的难度。因此,识别用户输入的语句是否为描述汽车故障的语句就至关重要。
本申请实施例可对任意一句语句进行识别,可选地,该语句可以为单独的一句话,也可为一段文字中的任意一句话,还可以是一篇文章中的任意一句话。首先,从待识别文字中获取第一语句,其中,待识别文字可为一篇文章或一段文字或一句话,第一语句为待识别的语句。
S202、对第一语句进行分词,得到一个或多个第一词语。
本申请是首先需要通过对语句中的一个或多个词语进行识别,再结合一个或多个识别结果得到该句子的具体分类。
具体地,对第一语句进行分词,得到一个或多个第一词语,是通过分词工具完成的。该分词工具是基于理解的分词方法完成分词的,即通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。
S203、获取一句或多句训练语句。
本申请实施例在对语句进行识别之前,需要进行简单的训练,这样在实际使用时能自主识别任意语句的分类,其中,语句的分类包括:该语句是描述汽车故障的语句、该语句非描述汽车故障的语句。从训练语料库中获取一句或多句已知分类的训练语句,需要理解的是,训练过程需要遍历训练语料库中的所有语句,即将训练语料库中的所有语句都单独提取出来,进行训练。
S204、将训练语句进行分词,得到一个或多个第二词语。
本申请的识别思想是首先通过对语句中的一个或多个词语进行识别,再结合一个或多个识别结果得到该句子的具体分类。具体分词方式同步骤S201一样,通过分词工具对训练语句进行分词,可得到一个或多个第二词语。
S205、统计训练语句和所述一个或多个第二词语,得到第三概率、一个或多个第二词语对应的第四概率和一个或多个第二词语对应的第五概率。
如S203所述,训练语句均从训练语料库中获取,即训练语料库中包含大量训练语句,且这些训练语句的分类均是已知的。
将训练语料库中为描述汽车故障现象的句子标注为1,非描述汽车故障的句子标注为0。则训练语料库中出现描述汽车故障现象的句子的概率可由下式获得:
即为第三概率。
因此,训练语料库中出现非描述汽车故障现象的句子的概率可由下式获得:
令第二词语的集合为B,并将训练语句进行分词,得到的一个或多个第二词语分别表示为:B1,B2,...,Bn,其中,n为正整数。在训练语句为描述汽车故障现象的句子的条件下,该句子包含第二词语Bn的概率为:
即为第四概率。
在训练语句非描述汽车故障现象的句子的条件下,该句子包含第二词语Bn的概率为:
即为第五概率。
显然,由于训练语料库中所有句子的分类是已知的,且通过分词工具分词得到的第二词语的集合B也是已知的,上述三个概率值均可直接统计得到。
S206、确定一个或多个第一词语和一个或多个第二词语中相同的词语,得到一个或多个第三词语。
首先,找出第一词语中与第二词语中相同的词语,定义为第三词语。本申请所选用的训练语料库中的第二词语包含了大多数描述汽车故障的关键词,因此,在实际使用中,可通过对第三词语的识别,得到第一语句的分类。从而,可以省去对第一语句中除去第三词语后的词语的识别,提高运行效率。另外,由于第一语句中除去第三词语后的词语不影响对第二语句分类的识别,因此,本申请这种方式还可提高后续对第一语句分类的准确率。
为更好的理解S201~S206中所提到的第一词语、第二词语、第三词语、第三概率、第四概率和第五概率,具体可参见下例:用户A在汽车维修论坛进行提问:“除了喇叭和发动机不响,其他地方都响”,以该句话作为第一语句,对其进行分词得到以下多个第一词语:除了、喇叭、和、发动机、不响、其他、地方、都、响。显然,训练语料中的语句都是已知的,所以可直接统计得到训练语料中描述汽车故障现象的语句的数量和非描述汽车故障的语句的数量,进而可得到第三概率,同时,对训练语句分词得到的第二词语也是已知的。设词语B为第二词语中的一个,这样,训练语料中别标注为1的句子的数量、被标注为1且包含词语B的句子的数量均可通过统计得到,进而可通过公式(3)计算得到第四概率,同理,可计算得到第五概率。需要理解的是,由于第二词语Bn有n个,相应的,第四概率和第五概率也有n个。由于训练语料的语句数量很多,且训练语料可实时更新,这里将不对第二词语一一列举,假设第二词语中包括有第一词语中的“喇叭、和、发动机、不响、其他、响”,但不包括第一词语中的“除了、地方、都”,这样第一词语和第二词语中相同的词语就为“喇叭、和、发动机、不响、其他、响”,也就是第三词语。
S207、根据一个或多个第三词语、第四概率和所述第五概率,确定一个或多个第八概率和一个或多个第九概率。
步骤S205中统计了第二词语的集合B的第四概率和第五概率,即任意一个第二词语Bn对应的第四概率和第五概率。由于第二词语包含第三词语,因此,可根据步骤S205的统计结果,确定第一语句是描述故障的语句的条件下包含一个或多个第三词语的概率P(Bi|A)和第一语句非描述故障的语句的条件下包含一个或多个第三词语的概率令P(Bi|A)为第八概率、为第九概率,其中,i为正整数,且i≤n。
S208、根据第三概率、一个或多个第八概率和一个或多个第九概率,得到一个或多个第一词语对应的第六概率和一个或多个第一词语对应的第七概率。
由贝叶斯公式可得:
其中,P(A)为第三概率,
公式(5)中的P(A|Bi)为包含第三词语Bi的句子为描述汽车故障的语句的概率,即为第六概率。公式(6)中的为包含第三词语Bi的句子非描述汽车故障的语句的概率,即为第七概率。
S209、根据第六概率和第七概率,分别确定第一概率和第二概率。
P(A|Bi)和均为单个第三词语对整句话的分类影响,但实际中,一句话往往会包含多个第三词语,即一句话中的每个第三词语都将影响句子分类的结果。因此,根据第八概率可得到在第一语句包含一个或多个第一词语的条件下,第一语句是描述故障的语句的概率:
即为第一概率。
再根据第九概率可得到在第一语句包含一个或多个第一词语的条件下,第一语句非描述故障的语句的概率:
即为第二概率。
由于有些词语的出现既可以与描述汽车故障相关联,也可以与非描述故障相关联,而这些词语的存在,往往会影响句子的最终分类结果,降低分类的准确率。因此,本申请为解决这个问题,引入一个阈值σ。
可选地,将测试语料库中的所有测试语句依次执行步骤S201~S208,并根据第六概率和第七概率,分别得到第一概率T1和第二概率T2,其中,测试语料库和训练语料库一样,都包含大量已知分类的语句。令σ=0.0001,若T1-T2≥σ,则将该测试语句判别为描述故障的语句;若T1-T2<σ,则将该测试语句判别为非描述故障的语句。需要理解的是,该判别结果为当σ=0.0001时,本申请给出的分类结果,该分类结果与实际分类不一定相符,但可通过对测试结果的监督来提高分类结果的准确率。
若测试语句被标记为非描述故障的语句,而本申请给出的分类结果是描述故障的语句,则将该测试语句定义为TP。若测试语句被标记为描述故障的语句,而本申请给出的分类结果是非描述故障的语句,则将该测试语句定义为FN。若测试语句被标记为非描述故障的语句,而本申请给出的分类结果是描述故障的语句,则将该测试语句定义为FP。若测试语句被标记为非描述故障的语句,而本申请给出的分类结果是非描述故障的语句,则将该测试语句定义为TN。
这样,召回率R就可由下式表示:
同时,精确率P可由下式计算得到:
则令评价指标F1的表达式为:
显然,通过调节σ的大小,可改变召回率R和精确率P的大小,进而改变评价指标F1的大小。定义当F1的值为最大时,此时的阈值的值为最优取值。因此,通过评价指标F1实现对测试结果的监督,可得到σ的最优值。
S210、根据第一概率和第二概率,确定第一语句的分类。
由S209可知,通过对本申请进行测试,可得σ的最优值,在选取出最合适σ值后,即可将本申请投入到实际应用中。对待识别的语句依次执行步骤S201~S202和204~S209,得到第一概率T1和第二概率T2,则第一概率和第二概率的差值为:Δ=T1-T2。将Δ与阈值σ作比较,差值大于阈值,则确定第一语句为描述故障的语句;若差值小于或等于阈值,则确定第一语句非描述故障的语句。
本申请实施例通过对训练语料库中训练语句的统计和贝叶斯公式,计算得到第一语句为描述故障的语句的概率和非描述故障语句的概率。再通过设定阈值,消除一些既可以判别为描述汽车故障的词语,也可以判别为非描述故障词语,对最终分类结果带来的影响。同时,通过统计训练的方式,确定阈值的最优值,即将本申请的识别准确率提高到最大。最终,可自主,高效,精确的实现对任意语句的分类。
上述详细阐述了本申请实施例的方法,下面提供了本申请实施例的装置。
请参阅图3,图3为本申请实施例提供的一种识别汽车故障语句的装置的结构示意图,该装置1000包括:获取单元11、分词单元12、计算单元13、确定单元14。其中:
获取单元11,用于获取第一语句;
分词单元12,用于对所述第一语句进行分词,得到一个或多个第一词语;
计算单元13,用于根据所述一个或多个第一词语中的每个第一词语进行概率计算,得到第一概率和第二概率,其中,所述第一概率为第一语句是描述故障的语句的概率,所述第二概率为第一语句非描述故障的语句的概率;
确定单元14,用于根据所述第一概率和所述第二概率,确定所述第一语句的分类,其中,所述分类包括:描述故障的语句、非描述故障的语句。
进一步地,所述计算单元13,包括:获取子单元131,用于获取一句或多句训练语句;分词子单元132,用于将所述训练语句进行分词,得到一个或多个第二词语;统计子单元133,用于统计所述训练语句和所述一个或多个第二词语,得到第三概率、一个或多个第二词语对应的第四概率和一个或多个第二词语对应的第五概率,其中,所述第三概率为所述训练语句中出现描述故障的语句的概率,所述第四概率为所述训练语句是描述故障的语句条件下包含所述一个或多个第二词语的概率,所述第五概率为所述训练语句非描述故障的语句条件下包含所述一个或多个第二词语的概率;第一计算子单元134,用于根据所述第三概率、所述第四概率和所述第五概率,得到所述一个或多个第一词语对应的第六概率和所述一个或多个第一词语对应的第七概率,其中,所述第六概率为在所述一个或多个第一语句包含所述一个或多个第一词语的条件下,所述第一语句是描述故障的语句的概率,所述第七概率为在所述第一语句包含所述一个或多个第一词语的条件下,所述第一语句非描述故障的语句的概率;确定子单元135,用于根据所述第六概率和所述第七概率,分别确定所述第一概率和所述第二概率。
进一步地,所述第一计算子单元134还用于:确定所述一个或多个第一词语和所述一个或多个第二词语中相同的词语,得到一个或多个第三词语;以及根据所述一个或多个第三词语、所述第四概率和所述第五概率,确定一个或多个第八概率和一个或多个第九概率,其中,所述第八概率为所述第一语句是描述故障的语句的条件下包含所述一个或多个第三词语的概率,所述第九概率为所述第一语句非描述故障的语句的条件下包含所述一个或多个第三词语的概率;以及根据所述第三概率、所述一个或多个第八概率和所述一个或多个第九概率,得到所述一个或多个第一词语对应的第六概率和所述一个或多个第一词语对应的第七概率。
进一步地,所述确定单元14,包括:第二计算子单元141,用于确定所述第一概率和所述第二概率的差值;识别子单元142,用于若所述差值大于阈值,则确定所述第一语句为描述故障的语句;所述识别子单元142,还用于若所述差值小于或等于所述阈值,则确定所述第一语句非描述故障的语句。
图4为本申请实施例提供的一种识别汽车故障语句的装置的硬件结构示意图。该识别装置2000包括处理器21,还可以包括输入装置22、输出装置23和存储器24。该输入装置22、输出装置23、存储器24和处理器21之间通过总线相互连接。
存储器包括但不限于是随机存储记忆体(random access memory,RAM)、只读存储器(read-only memory,ROM)、可擦除可编程只读存储器(erasable programmable readonly memory,EPROM)、或便携式只读存储器(compact disc read-only memory,CD-ROM),该存储器用于相关指令及数据。
输入装置用于输入数据和/或信号,以及输出装置用于输出数据和/或信号。输出装置和输入装置可以是独立的器件,也可以是一个整体的器件。
处理器可以包括是一个或多个处理器,例如包括一个或多个中央处理器(centralprocessing unit,CPU),在处理器是一个CPU的情况下,该CPU可以是单核CPU,也可以是多核CPU。
存储器用于存储网络设备的程序代码和数据。
处理器用于调用该存储器中的程序代码和数据,执行如下步骤:
在一个实现方式中,所述处理器用于执行如下步骤:获取第一语句;对所述第一语句进行分词,得到一个或多个第一词语;根据所述一个或多个第一词语中的每个第一词语进行概率计算,得到第一概率和第二概率,其中,所述第一概率为第一语句是描述故障的语句的概率,所述第二概率为第一语句非描述故障的语句的概率;根据所述第一概率和所述第二概率,确定所述第一语句的分类,其中,所述分类包括:描述故障的语句、非描述故障的语句。
在另一个实现方式中,所述处理器用于执行如下步骤:获取一句或多句训练语句;将所述训练语句进行分词,得到一个或多个第二词语;统计所述训练语句和所述一个或多个第二词语,得到第三概率、一个或多个第二词语对应的第四概率和一个或多个第二词语对应的第五概率,其中,所述第三概率为所述训练语句中出现描述故障的语句的概率,所述第四概率为所述训练语句是描述故障的语句条件下包含所述一个或多个第二词语的概率,所述第五概率为所述训练语句非描述故障的语句条件下包含所述一个或多个第二词语的概率;根据所述第三概率、所述第四概率和所述第五概率,得到所述一个或多个第一词语对应的第六概率和所述一个或多个第一词语对应的第七概率,其中,所述第六概率为在所述一个或多个第一语句包含所述一个或多个第一词语的条件下,所述第一语句是描述故障的语句的概率,所述第七概率为在所述第一语句包含所述一个或多个第一词语的条件下,所述第一语句非描述故障的语句的概率;根据所述第六概率和所述第七概率,分别确定所述第一概率和所述第二概率。
在又一个实现方式中,所述处理器用于执行如下步骤:确定所述一个或多个第一词语和所述一个或多个第二词语中相同的词语,得到一个或多个第三词语;根据所述一个或多个第三词语、所述第四概率和所述第五概率,确定一个或多个第八概率和一个或多个第九概率,其中,所述第八概率为所述第一语句是描述故障的语句的条件下包含所述一个或多个第三词语的概率,所述第九概率为所述第一语句非描述故障的语句的条件下包含所述一个或多个第三词语的概率;根据所述第三概率、所述一个或多个第八概率和所述一个或多个第九概率,得到所述一个或多个第一词语对应的第六概率和所述一个或多个第一词语对应的第七概率。
在又一个实现方式中,所述处理器用于执行如下步骤:确定所述第一概率和所述第二概率的差值;若所述差值大于阈值,则确定所述第一语句为描述故障的语句;若所述差值小于或等于所述阈值,则确定所述第一语句非描述故障的语句。
可以理解的是,图4仅仅示出了一种识别汽车故障语句的装置的简化设计。在实际应用中,识别汽车故障语句的装置还可以分别包含必要的其他元件,包含但不限于任意数量的输入/输出装置、处理器、控制器、存储器等,而所有可以实现本申请实施例的识别汽车故障语句的装置都在本申请的保护范围之内。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,该单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。所显示或讨论的相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者通过该计算机可读存储介质进行传输。该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是只读存储器(read-onlymemory,ROM),或随机存储存储器(random access memory,RAM),或磁性介质,例如,软盘、硬盘、磁带、磁碟、或光介质,例如,数字通用光盘(digital versatile disc,DVD)、或者半导体介质,例如,固态硬盘(solid state disk,SSD)等。

Claims (10)

1.一种识别汽车故障语句的方法,其特征在于,包括:
获取第一语句;
对所述第一语句进行分词,得到一个或多个第一词语;
根据所述一个或多个第一词语中的每个第一词语进行概率计算,得到第一概率和第二概率,其中,所述第一概率为第一语句是描述故障的语句的概率,所述第二概率为第一语句非描述故障的语句的概率;
根据所述第一概率和所述第二概率,确定所述第一语句的分类,其中,所述分类包括:描述故障的语句、非描述故障的语句。
2.如权利要求1所述的方法,其特征在于,所述根据所述一个或多个第一词语中的每个第一词语进行概率计算,得到第一概率和第二概率,包括:
获取一句或多句训练语句;
将所述训练语句进行分词,得到一个或多个第二词语;
统计所述训练语句和所述一个或多个第二词语,得到第三概率、一个或多个第二词语对应的第四概率和一个或多个第二词语对应的第五概率,其中,所述第三概率为所述训练语句中出现描述故障的语句的概率,所述第四概率为所述训练语句是描述故障的语句条件下包含所述一个或多个第二词语的概率,所述第五概率为所述训练语句非描述故障的语句条件下包含所述一个或多个第二词语的概率;
根据所述第三概率、所述第四概率和所述第五概率,得到所述一个或多个第一词语对应的第六概率和所述一个或多个第一词语对应的第七概率,其中,所述第六概率为在所述一个或多个第一语句包含所述一个或多个第一词语的条件下,所述第一语句是描述故障的语句的概率,所述第七概率为在所述第一语句包含所述一个或多个第一词语的条件下,所述第一语句非描述故障的语句的概率;
根据所述第六概率和所述第七概率,分别确定所述第一概率和所述第二概率。
3.如权利要求2所述的方法,其特征在于,所述根据所述第三概率、所述第四概率和所述第五概率,得到所述第六概率和所述第七概率,包括:
确定所述一个或多个第一词语和所述一个或多个第二词语中相同的词语,得到一个或多个第三词语;
根据所述一个或多个第三词语、所述第四概率和所述第五概率,确定一个或多个第八概率和一个或多个第九概率,其中,所述第八概率为所述第一语句是描述故障的语句的条件下包含所述一个或多个第三词语的概率,所述第九概率为所述第一语句非描述故障的语句的条件下包含所述一个或多个第三词语的概率;
根据所述第三概率、所述一个或多个第八概率和所述一个或多个第九概率,得到所述一个或多个第一词语对应的第六概率和所述一个或多个第一词语对应的第七概率。
4.如权利要求1或2所述的方法,其特征在于,所述根据所述第一概率和所述第二概率,确定所述第一语句的分类,包括:
确定所述第一概率和所述第二概率的差值;
若所述差值大于阈值,则确定所述第一语句为描述故障的语句;
若所述差值小于或等于所述阈值,则确定所述第一语句非描述故障的语句。
5.一种识别汽车故障语句的装置,其特征在于,包括:
获取单元,用于获取第一语句;
分词单元,用于对所述第一语句进行分词,得到一个或多个第一词语;
计算单元,用于根据所述一个或多个第一词语中的每个第一词语进行概率计算,得到第一概率和第二概率,其中,所述第一概率为第一语句是描述故障的语句的概率,所述第二概率为第一语句非描述故障的语句的概率;
确定单元,用于根据所述第一概率和所述第二概率,确定所述第一语句的分类,其中,所述分类包括:描述故障的语句、非描述故障的语句。
6.如权利要求5所述的装置,其特征在于,所述计算单元,包括:
获取子单元,用于获取一句或多句训练语句;
分词子单元,用于将所述训练语句进行分词,得到一个或多个第二词语;
统计子单元,用于统计所述训练语句和所述一个或多个第二词语,得到第三概率、一个或多个第二词语对应的第四概率和一个或多个第二词语对应的第五概率,其中,所述第三概率为所述训练语句中出现描述故障的语句的概率,所述第四概率为所述训练语句是描述故障的语句条件下包含所述一个或多个第二词语的概率,所述第五概率为所述训练语句非描述故障的语句条件下包含所述一个或多个第二词语的概率;
第一计算子单元,用于根据所述第三概率、所述第四概率和所述第五概率,得到所述一个或多个第一词语对应的第六概率和所述一个或多个第一词语对应的第七概率,其中,所述第六概率为在所述一个或多个第一语句包含所述一个或多个第一词语的条件下,所述第一语句是描述故障的语句的概率,所述第七概率为在所述第一语句包含所述一个或多个第一词语的条件下,所述第一语句非描述故障的语句的概率;
确定子单元,用于根据所述第六概率和所述第七概率,分别确定所述第一概率和所述第二概率。
7.如权利要求6所述的装置,其特征在于,所述第一计算子单元还用于:
确定所述一个或多个第一词语和所述一个或多个第二词语中相同的词语,得到一个或多个第三词语;
以及根据所述一个或多个第三词语、所述第四概率和所述第五概率,确定一个或多个第八概率和一个或多个第九概率,其中,所述第八概率为所述第一语句是描述故障的语句的条件下包含所述一个或多个第三词语的概率,所述第九概率为所述第一语句非描述故障的语句的条件下包含所述一个或多个第三词语的概率;
以及根据所述第三概率、所述一个或多个第八概率和所述一个或多个第九概率,得到所述一个或多个第一词语对应的第六概率和所述一个或多个第一词语对应的第七概率。
8.如权利要求5或6所述的装置,其特征在于,所述确定单元,包括:
第二计算子单元,用于确定所述第一概率和所述第二概率的差值;
识别子单元,用于若所述差值大于阈值,则确定所述第一语句为描述故障的语句;
所述识别子单元,还用于若所述差值小于或等于所述阈值,则确定所述第一语句非描述故障的语句。
9.一种识别汽车故障语句的装置,其特征在于,包括:处理器、存储器;所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行如权利要求1~4任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行如权利要求1~4任一项所述的方法。
CN201811081275.7A 2018-09-17 2018-09-17 一种识别汽车故障语句的方法及装置 Active CN109522542B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811081275.7A CN109522542B (zh) 2018-09-17 2018-09-17 一种识别汽车故障语句的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811081275.7A CN109522542B (zh) 2018-09-17 2018-09-17 一种识别汽车故障语句的方法及装置

Publications (2)

Publication Number Publication Date
CN109522542A true CN109522542A (zh) 2019-03-26
CN109522542B CN109522542B (zh) 2023-05-05

Family

ID=65771258

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811081275.7A Active CN109522542B (zh) 2018-09-17 2018-09-17 一种识别汽车故障语句的方法及装置

Country Status (1)

Country Link
CN (1) CN109522542B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111913921A (zh) * 2019-05-08 2020-11-10 中国移动通信集团福建有限公司 用户行为分析方法及装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050060150A1 (en) * 2003-09-15 2005-03-17 Microsoft Corporation Unsupervised training for overlapping ambiguity resolution in word segmentation
CN107122346A (zh) * 2016-12-28 2017-09-01 平安科技(深圳)有限公司 一种输入语句的纠错方法及装置
CN107423280A (zh) * 2017-04-19 2017-12-01 广州视源电子科技股份有限公司 一种语句判别方法与系统
CN108255857A (zh) * 2016-12-29 2018-07-06 北京国双科技有限公司 一种语句检测方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050060150A1 (en) * 2003-09-15 2005-03-17 Microsoft Corporation Unsupervised training for overlapping ambiguity resolution in word segmentation
CN107122346A (zh) * 2016-12-28 2017-09-01 平安科技(深圳)有限公司 一种输入语句的纠错方法及装置
WO2018120889A1 (zh) * 2016-12-28 2018-07-05 平安科技(深圳)有限公司 输入语句的纠错方法、装置、电子设备及介质
CN108255857A (zh) * 2016-12-29 2018-07-06 北京国双科技有限公司 一种语句检测方法及装置
CN107423280A (zh) * 2017-04-19 2017-12-01 广州视源电子科技股份有限公司 一种语句判别方法与系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵卫锋等: "非结构化中文自然语言地址描述的自动识别", 《计算机工程与应用》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111913921A (zh) * 2019-05-08 2020-11-10 中国移动通信集团福建有限公司 用户行为分析方法及装置、设备及存储介质

Also Published As

Publication number Publication date
CN109522542B (zh) 2023-05-05

Similar Documents

Publication Publication Date Title
CN105574098B (zh) 知识图谱的生成方法及装置、实体对比方法及装置
US10366161B2 (en) Anaphora resolution for medical text with machine learning and relevance feedback
CN113553412B (zh) 问答处理方法、装置、电子设备和存储介质
CN104933100A (zh) 关键词推荐方法和装置
CN105302882B (zh) 获取关键词的方法及装置
KR101850993B1 (ko) 클러스터 기반 키워드 산출 방법 및 장치
CN116848490A (zh) 使用模型相交进行文档分析
CN109144879B (zh) 测试分析方法及装置
CN105589976B (zh) 基于语义相关度的目标实体确定方法及装置
CN116737881A (zh) 模型评测方法、装置、电子设备及存储介质
CN112507121A (zh) 客服违规质检方法、装置、计算机设备及存储介质
CN109522542A (zh) 一种识别汽车故障语句的方法及装置
CN115934548A (zh) 一种基于信息检索的语句级软件缺陷定位方法及系统
KR20220024251A (ko) 이벤트 라이브러리를 구축하는 방법 및 장치, 전자 기기, 및 컴퓨터 판독가능 매체
CN113705253A (zh) 一种机器翻译模型性能检测方法、以及相关设备
CN113962216A (zh) 文本处理方法、装置、电子设备及可读存储介质
CN114329210A (zh) 信息推荐方法、装置及电子设备
CN109787784B (zh) 群组推荐方法、装置、存储介质和计算机设备
CN110968690B (zh) 词语的聚类划分方法和装置、设备以及存储介质
CN112365948A (zh) 癌症分期预测系统
CN109684458A (zh) 一种语句向量的计算方法及装置
CN111783995B (zh) 分类规则获取方法及装置
CN110032723B (zh) 句子分类的测试方法、装置、服务器及可读存储介质
CN113778874A (zh) 测试结果判别方法及测试结果判别装置
CN113592039A (zh) 一种模型主键的预测方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant