CN113254595B - 闲聊识别方法、装置、电子设备及存储介质 - Google Patents

闲聊识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113254595B
CN113254595B CN202110688766.3A CN202110688766A CN113254595B CN 113254595 B CN113254595 B CN 113254595B CN 202110688766 A CN202110688766 A CN 202110688766A CN 113254595 B CN113254595 B CN 113254595B
Authority
CN
China
Prior art keywords
text
recognized
chatting
word vector
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110688766.3A
Other languages
English (en)
Other versions
CN113254595A (zh
Inventor
吕向楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wofeng Times Data Technology Co ltd
Original Assignee
Beijing Wofeng Times Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wofeng Times Data Technology Co ltd filed Critical Beijing Wofeng Times Data Technology Co ltd
Priority to CN202110688766.3A priority Critical patent/CN113254595B/zh
Publication of CN113254595A publication Critical patent/CN113254595A/zh
Application granted granted Critical
Publication of CN113254595B publication Critical patent/CN113254595B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明提供一种闲聊识别方法、装置、电子设备及存储介质。所述方法包括:基于客服领域关键词信息,对待识别文本进行预识别;在所述待识别文本的预识别结果为闲聊文本时,基于文本特征提取模型,对所述待识别文本进行特征提取,得到所述待识别文本的字向量和词向量;将所述字向量和所述词向量输入训练好的分类模型,得到最终的闲聊识别结果,其中,所述训练好的分类模型是基于携带有闲聊类别标识的样本字向量和携带有闲聊类别标识的样本词向量训练得到的,本发明的识别速度快,占用资源少,而且准确率较高。

Description

闲聊识别方法、装置、电子设备及存储介质
技术领域
本发明涉及数据处理技术领域,具体涉及一种闲聊识别方法、装置、电子设备及存储介质。
背景技术
目前,人机对话,是人工智能领域的子方向,通俗的讲就是让人可以通过人类的语言即自然语言与计算机进行交互,随着技术的不断发展,越来越多的商家开始使用智能客服,来缓解客户服务的压力。
但是在实际的交互过程中,可能会收到很多来自用户的闲聊语句,而闲聊问答具有非常强的发散性与无目的性,难以构建有效且全面的知识库。且闲聊与业务场景无关,无需人工构建知识库,因此这些闲聊语句会影响最终智能客服的回复准确率,而识别出闲聊文本并剔除,就能很好的解决的这个问题。
因此如何从用户的文本中识别出闲聊文本,已经成为业界亟待解决的问题。
发明内容
本发明提供一种闲聊识别方法、装置、电子设备及存储介质,用以解决识别出闲聊文本的技术问题。
第一方面,本发明提供一种闲聊识别方法,包括:
基于客服领域关键词信息,对待识别文本进行预识别;
在所述待识别文本的预识别结果为闲聊文本时,基于文本特征提取模型,对所述待识别文本进行特征提取,得到所述待识别文本的字向量和词向量;
将所述字向量和所述词向量输入训练好的分类模型,得到最终的闲聊识别结果,其中,所述训练好的分类模型是基于携带有闲聊类别标识的样本字向量和携带有闲聊类别标识的样本词向量训练得到的。
在一个实施例中,所述基于客服领域关键词信息,对待识别文本进行预识别,包括:
在所述待识别文本中未包含所述客服领域关键词信息的情况下,则判定所述待识别文本的预识别结果为闲聊文本;
或,在所述待识别文本中包含所述客服领域关键词信息的情况下,则判定所述待识别文本的预识别结果为非闲聊文本。
在一个实施例中,所述基于文本特征提取模型,对所述待识别文本进行特征提取之前,所述方法还包括:
去除所述待识别文本中的句号、表情符号和虚词。
在一个实施例中,所述基于文本特征提取模型,对所述待识别文本进行特征提取,得到所述待识别文本的字向量和词向量,包括:
对所述待识别文本进行特征词提取,得到所述待识别文本的特征词信息,并获取所述待识别文本的字符信息;
将所述字符信息和所述特征词信息同时输入文本特征提取模型,得到所述待识别文本的字向量和词向量。
在一个实施例中,所述将所述字向量和所述词向量输入训练好的分类模型之前,还包括:
获取多个样本字向量和每个样本字向量对应的闲聊类别标识,并获取多个样本词向量和每个样本词向量对应的闲聊类别标识;
将每个携带有闲聊类别标识的样本字向量和每个携带有闲聊类别标识的样本词向量作为一个训练样本,获取多个训练样本;
基于所述多个训练样本,对预设神经网络进行训练,当满足预设训练条件时,停止训练,得到训练好的分类模型。
第二方面,本发明提供一种闲聊识别装置,包括:
预识别模块,用于基于客服领域关键词信息,对待识别文本进行预识别;
提取模块,用于在所述待识别文本的预识别结果为闲聊文本时,基于文本特征提取模型,对所述待识别文本进行特征提取,得到所述待识别文本的字向量和词向量;
识别模块,用于将所述字向量和所述词向量输入训练好的分类模型,得到最终的闲聊识别结果,其中,所述训练好的分类模型是基于携带有闲聊类别标识的样本字向量和携带有闲聊类别标识的样本词向量训练得到的。
在一个实施例中,所述预识别模块具体用于在所述待识别文本中未包含所述客服领域关键词信息的情况下,则判定所述待识别文本的预识别结果为闲聊文本;
或,在所述待识别文本中包含所述客服领域关键词信息的情况下,则判定所述待识别文本的预识别结果为非闲聊文本。
在一个实施例中,所述提取模块具体用于对所述待识别文本进行特征词提取,得到所述待识别文本的特征词信息,并获取所述待识别文本的字符信息;
将所述字符信息和所述特征词信息同时输入文本特征提取模型,得到所述待识别文本的字向量和词向量。
第三方面,本发明提供一种电子设备,包括存储器和存储有计算机程序的存储器,所述处理器执行所述程序时实现第一方面所述闲聊识别方法的步骤。
第四方面,本发明提供一种处理器可读存储介质,所述处理器可读存储介质存储有计算机程序,所述计算机程序用于使所述处理器执行第一方面所述闲聊识别方法的步骤。
本发明提供的一种闲聊识别方法、装置、电子设备及存储介质,通过在对待识别文本进行预识别之前,通过客服领域关键词信息对待识别文本进行初筛,筛选出需要进一步识别的闲聊文本,可以有效减少后续输入分类模型的数据量,减少数据运算量,提高识别效率,同时,本发明中使用字与词的向量对闲聊文本进行分布式特征表示,更全面的对文本进行特征表示,使文本特征提取模型更充分的拟合特征,本发明中的闲聊识别方法,识别速度快,占用资源少,而且准确率较高。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的闲聊识别方法的流程示意图;
图2为本发明实施例提供的闲聊文本识别流程图;
图3为本发明实施例所描述的闲聊识别装置结构示意图;
图4示例了一种电子设备的实体结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明提供的闲聊识别方法的流程示意图,如图1所示,包括:
步骤110,基于客服领域关键词信息,对待识别文本进行预识别;
具体地,由于本发明中的闲聊识别方法,主要是针对于客户服务领域的应用,因为本发明中通过设定客服领域关键词信息,来简单识别该文本识别为闲聊文本。
本发明实施例中所描述的客服领域关键词信息,具体可以是指客户服务领域的专业词语或者符号,例如常见的客服领域关键词信息可以包括“帮助”、“服务”等等。可以预先设定一个相关的关键词词库。
具体地,首先采用通用分词工具对所有待识别数据进行分词。通过引入客户服务领域的专业词语或者符号作为是否是闲聊文本的判断要素,如果待识别文本包含了客户服务领域的专业词语或者符号,则判定该文本为非闲聊文本,否则认为该文本为闲聊文本。
步骤120,在所述待识别文本的预识别结果为闲聊文本时,基于文本特征提取模型,对所述待识别文本进行特征提取,得到所述待识别文本的字向量和词向量;
具体地,在本发明实施例中,若待识别文本的预识别结果为闲聊文本时,则说明此时待识别文本很有可能确实为闲聊文本,但是仅仅依靠预识,仍然不足够准确,所以本发明在预识别的基础上,还需要对其进行二次识别。
因此,本发明中还会通过文本特征提取模型,对所述待识别文本进行特征提取,具体的,本发明中的文本特征提取模型可以是Word2Vec,并且对于每个闲聊文本使用了使用字与词的向量对来进行表示,更全面的对文本进行特征表示。
步骤130,将所述字向量和所述词向量输入训练好的分类模型,得到最终的闲聊识别结果,其中,所述训练好的分类模型是基于携带有闲聊类别标识的样本字向量和携带有闲聊类别标识的样本词向量训练得到的。
具体地,由于在智能客服场景中,用户问句一般为小于20个字的短文本,且在闲聊场景中词的相对顺序对识别准确率影响较小,所以选择模型结构简单且可快速训练的TextCNN模型。
将所述字向量和所述词向量输入训练好的分类模型,模型会输出待识别文本是否为闲聊文本的最终的闲聊识别结果。
在本发明实施例中,通过在对待识别文本进行预识别之前,通过客服领域关键词信息对待识别文本进行初筛,筛选出需要进一步识别的闲聊文本,可以有效减少后续输入分类模型的数据量,减少数据运算量,提高识别效率,同时,本发明中使用字与词的向量对闲聊文本进行分布式特征表示,更全面的对文本进行特征表示,使文本特征提取模型更充分的拟合特征,本发明中的闲聊识别方法,识别速度快,占用资源少,而且准确率较高。
可选地,所述基于客服领域关键词信息,对待识别文本进行预识别,包括:
在所述待识别文本中未包含所述客服领域关键词信息的情况下,则判定所述待识别文本的预识别结果为闲聊文本;
或,在所述待识别文本中包含所述客服领域关键词信息的情况下,则判定所述待识别文本的预识别结果为非闲聊文本。
具体地,在判定所述待识别文本的预识别结果为闲聊文本,在本发明实施例中,需要进一步通过其它方式判别该闲聊文本。
在判定所述待识别文本的预识别结果为非闲聊文本的情况下,则说明不需要对该文本进一步进行判别。
在本发明实施例中,通过客服领域关键词信息对待识别文本进行初筛,筛选出需要进一步识别的闲聊文本,可以有效减少后续输入分类模型的数据量,减少数据运算量,提高识别效率。
可选地,所述基于文本特征提取模型,对所述待识别文本进行特征提取之前,所述方法还包括:
去除所述待识别文本中的句号、表情符号和虚词。
具体地,在文本特征提取之前,通常均需要对待识别文本中的标点,以避免符号的影响。
但是在本发明的方案中预处理时需要去除句号,其余标点不需去除,这与闲聊结束时一般不打句号,若是疑问句则会打问号有关,因此本发明中认为其它符号也会影响到判别结果。
在本发明实施例中,通过与常规标点去除方式不同的去除方案,可以有效的保留有利于判断闲聊文本的特征,保证后续判别的准确性。
可选地,所述基于文本特征提取模型,对所述待识别文本进行特征提取,得到所述待识别文本的字向量和词向量,包括:
对所述待识别文本进行特征词提取,得到所述待识别文本的特征词信息,并获取所述待识别文本的字符信息;
将所述字符信息和所述特征词信息同时输入文本特征提取模型,得到所述待识别文本的字向量和词向量。
具体地,本发明中所描述的词向量,是指待识别文本中的特征词向量,因此需要首先对待识别文本进行关键词提取。
本发明中进行特征词提取的方式,可以是常见的关键词抽取算法,本发明中对此不作限定。
本发明中会将所述字符信息和所述特征词信息同时输入文本特征提取模型,得到所述待识别文本的字向量和词向量。
在本发明实施例中,使用字与词的向量对闲聊文本进行分布式特征表示,更全面的对文本进行特征表示,使文本特征提取模型更充分的拟合特征。
可选地,获取多个样本字向量和每个样本字向量对应的闲聊类别标识,并获取多个样本词向量和每个样本词向量对应的闲聊类别标识;
将每个携带有闲聊类别标识的样本字向量和每个携带有闲聊类别标识的样本词向量作为一个训练样本,获取多个训练样本;
基于所述多个训练样本,对预设神经网络进行训练,当满足预设训练条件时,停止训练,得到训练好的分类模型。
具体地,本发明中所描述的闲聊类别标识用于标识其属于闲聊类别还是非闲聊类别。
本发明中所描述的预设神经网络可以是TextCNN模型,这是由于在智能客服场景中,用户问句一般为小于20个字的短文本,且在闲聊场景中词的相对顺序对识别准确率影响较小。
本发明中所描述的预设训练条件,可以是满足预设训练时间,或者满足预设训练此时。
本发明中训练好的分类模型能够,能够有效的识别输入的字向量和词向量是否属于闲聊文本。
图2为本发明实施例提供的闲聊文本识别流程图,如图2所示,包括:首先对文本进行预处理,然后抽取文本关键词,将关键词和文本同时进行特征抽取,得到文本的字符的表示和词的表示,然后将字符的表示和词的表示同时输入分类算法,最终得到文本的分类结果。
在本发明实施例中,通过在对待识别文本进行预识别之前,通过客服领域关键词信息对待识别文本进行初筛,筛选出需要进一步识别的闲聊文本,可以有效减少后续输入分类模型的数据量,减少数据运算量,提高识别效率,同时,本发明中使用字与词的向量对闲聊文本进行分布式特征表示,更全面的对文本进行特征表示,使文本特征提取模型更充分的拟合特征,本发明中的闲聊识别方法,识别速度快,占用资源少,而且准确率较高。
图3为本发明实施例所描述的闲聊识别装置结构示意图,如图3所示,包括:预识别模块310、提取模块320和识别模块330;其中,预识别模块310用于基于客服领域关键词信息,对待识别文本进行预识别;其中,提取模块320用于在所述待识别文本的预识别结果为闲聊文本时,基于文本特征提取模型,对所述待识别文本进行特征提取,得到所述待识别文本的字向量和词向量;其中,识别模块330用于将所述字向量和所述词向量输入训练好的分类模型,得到最终的闲聊识别结果,其中,所述训练好的分类模型是基于携带有闲聊类别标识的样本字向量和携带有闲聊类别标识的样本词向量训练得到的。
在一个实施例中,所述预识别模块具体用于在所述待识别文本中未包含所述客服领域关键词信息的情况下,则判定所述待识别文本的预识别结果为闲聊文本;
或,在所述待识别文本中包含所述客服领域关键词信息的情况下,则判定所述待识别文本的预识别结果为非闲聊文本。
在一个实施例中,所述提取模块具体用于对所述待识别文本进行特征词提取,得到所述待识别文本的特征词信息,并获取所述待识别文本的字符信息;
将所述字符信息和所述特征词信息同时输入文本特征提取模型,得到所述待识别文本的字向量和词向量。
图4示例了一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(Communication Interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的计算机程序,以执行闲聊识别方法的步骤,例如包括:基于客服领域关键词信息,对待识别文本进行预识别;在所述待识别文本的预识别结果为闲聊文本时,基于文本特征提取模型,对所述待识别文本进行特征提取,得到所述待识别文本的字向量和词向量;将所述字向量和所述词向量输入训练好的分类模型,得到最终的闲聊识别结果,其中,所述训练好的分类模型是基于携带有闲聊类别标识的样本字向量和携带有闲聊类别标识的样本词向量训练得到的。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的闲聊识别方法的步骤,例如包括:基于客服领域关键词信息,对待识别文本进行预识别;在所述待识别文本的预识别结果为闲聊文本时,基于文本特征提取模型,对所述待识别文本进行特征提取,得到所述待识别文本的字向量和词向量;将所述字向量和所述词向量输入训练好的分类模型,得到最终的闲聊识别结果,其中,所述训练好的分类模型是基于携带有闲聊类别标识的样本字向量和携带有闲聊类别标识的样本词向量训练得到的。
另一方面,本发明实施例还提供一种处理器可读存储介质,所述处理器可读存储介质存储有计算机程序,所述计算机程序用于使所述处理器执行上述各实施例提供的方法的步骤,例如包括:基于客服领域关键词信息,对待识别文本进行预识别;在所述待识别文本的预识别结果为闲聊文本时,基于文本特征提取模型,对所述待识别文本进行特征提取,得到所述待识别文本的字向量和词向量;将所述字向量和所述词向量输入训练好的分类模型,得到最终的闲聊识别结果,其中,所述训练好的分类模型是基于携带有闲聊类别标识的样本字向量和携带有闲聊类别标识的样本词向量训练得到的。
所述处理器可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种闲聊识别方法,其特征在于,包括:
基于客服领域关键词信息,对待识别文本进行预识别;
在所述待识别文本的预识别结果为闲聊文本时,基于文本特征提取模型,对所述待识别文本进行特征提取,得到所述待识别文本的字向量和词向量;
将所述字向量和所述词向量输入训练好的分类模型,得到最终的闲聊识别结果,其中,所述训练好的分类模型是基于携带有闲聊类别标识的样本字向量和携带有闲聊类别标识的样本词向量训练得到的;
其中,所述基于客服领域关键词信息,对待识别文本进行预识别,包括:
在所述待识别文本中未包含所述客服领域关键词信息的情况下,则判定所述待识别文本的预识别结果为闲聊文本;
或,在所述待识别文本中包含所述客服领域关键词信息的情况下,则判定所述待识别文本的预识别结果为非闲聊文本。
2.根据权利要求1所述的闲聊识别方法,其特征在于,所述基于文本特征提取模型,对所述待识别文本进行特征提取之前,所述方法还包括:
去除所述待识别文本中的句号、表情符号和虚词。
3.根据权利要求1所述的闲聊识别方法,其特征在于,所述基于文本特征提取模型,对所述待识别文本进行特征提取,得到所述待识别文本的字向量和词向量,包括:
对所述待识别文本进行特征词提取,得到所述待识别文本的特征词信息,并获取所述待识别文本的字符信息;
将所述字符信息和所述特征词信息同时输入文本特征提取模型,得到所述待识别文本的字向量和词向量。
4.根据权利要求1所述的闲聊识别方法,其特征在于,所述将所述字向量和所述词向量输入训练好的分类模型之前,还包括:
获取多个样本字向量和每个样本字向量对应的闲聊类别标识,并获取多个样本词向量和每个样本词向量对应的闲聊类别标识;
将每个携带有闲聊类别标识的样本字向量和每个携带有闲聊类别标识的样本词向量作为一个训练样本,获取多个训练样本;
基于所述多个训练样本,对预设神经网络进行训练,当满足预设训练条件时,停止训练,得到训练好的分类模型。
5.一种闲聊识别装置,其特征在于,包括:
预识别模块,用于基于客服领域关键词信息,对待识别文本进行预识别;
提取模块,用于在所述待识别文本的预识别结果为闲聊文本时,基于文本特征提取模型,对所述待识别文本进行特征提取,得到所述待识别文本的字向量和词向量;
识别模块,用于将所述字向量和所述词向量输入训练好的分类模型,得到最终的闲聊识别结果,其中,所述训练好的分类模型是基于携带有闲聊类别标识的样本字向量和携带有闲聊类别标识的样本词向量训练得到的;
其中,所述预识别模块具体用于在所述待识别文本中未包含所述客服领域关键词信息的情况下,则判定所述待识别文本的预识别结果为闲聊文本;
或,在所述待识别文本中包含所述客服领域关键词信息的情况下,则判定所述待识别文本的预识别结果为非闲聊文本。
6.根据权利要求5所述的闲聊识别装置,其特征在于,所述提取模块具体用于对所述待识别文本进行特征词提取,得到所述待识别文本的特征词信息,并获取所述待识别文本的字符信息;
将所述字符信息和所述特征词信息同时输入文本特征提取模型,得到所述待识别文本的字向量和词向量。
7.一种电子设备,包括处理器和存储有计算机程序的存储器,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4任一项所述的闲聊识别方法的步骤。
8.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的闲聊识别方法的步骤。
CN202110688766.3A 2021-06-22 2021-06-22 闲聊识别方法、装置、电子设备及存储介质 Active CN113254595B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110688766.3A CN113254595B (zh) 2021-06-22 2021-06-22 闲聊识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110688766.3A CN113254595B (zh) 2021-06-22 2021-06-22 闲聊识别方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113254595A CN113254595A (zh) 2021-08-13
CN113254595B true CN113254595B (zh) 2021-10-22

Family

ID=77189008

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110688766.3A Active CN113254595B (zh) 2021-06-22 2021-06-22 闲聊识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113254595B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105631049A (zh) * 2016-02-17 2016-06-01 北京奇虎科技有限公司 一种识别诈骗短信的方法和系统
CN109829156A (zh) * 2019-01-18 2019-05-31 北京惠每云科技有限公司 医学文本识别方法及装置
CN109918500A (zh) * 2019-01-17 2019-06-21 平安科技(深圳)有限公司 基于卷积神经网络的文本分类方法及相关设备

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105956002A (zh) * 2016-04-20 2016-09-21 广州精点计算机科技有限公司 一种基于url分析的网页分类方法及装置
CN107766371B (zh) * 2016-08-19 2023-11-17 中兴通讯股份有限公司 一种文本信息分类方法及其装置
CN108491782B (zh) * 2018-03-16 2020-09-08 重庆大学 一种基于行车图像采集的车辆识别方法
KR20190115319A (ko) * 2018-04-02 2019-10-11 필아이티 주식회사 문장을 복수의 클래스들로 분류하는 모바일 장치 및 방법
CN111177308B (zh) * 2019-12-05 2023-07-18 上海云洽信息技术有限公司 一种文本内容的识别情绪方法
CN111078888B (zh) * 2019-12-20 2021-12-10 电子科技大学 一种自动分类社交网络用户评论数据的方法
CN111428030B (zh) * 2020-03-06 2023-06-30 苏宁云计算有限公司 一种语料分类的方法及系统
CN111669757B (zh) * 2020-06-15 2023-03-14 国家计算机网络与信息安全管理中心 一种基于通话文本词向量的终端诈骗电话识别方法
CN112035640A (zh) * 2020-08-31 2020-12-04 重庆长安汽车股份有限公司 一种基于智能问答机器人的精细化问答方法、存储介质和智能设备
CN112101367A (zh) * 2020-09-15 2020-12-18 杭州睿琪软件有限公司 文本识别方法、图像识别分类方法、文档识别处理方法
CN112199501B (zh) * 2020-10-13 2024-03-19 华中科技大学 一种科技信息文本分类方法
CN112966109B (zh) * 2021-03-09 2023-04-18 北京邮电大学 一种多层级的中文文本的分类方法及其系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105631049A (zh) * 2016-02-17 2016-06-01 北京奇虎科技有限公司 一种识别诈骗短信的方法和系统
CN109918500A (zh) * 2019-01-17 2019-06-21 平安科技(深圳)有限公司 基于卷积神经网络的文本分类方法及相关设备
CN109829156A (zh) * 2019-01-18 2019-05-31 北京惠每云科技有限公司 医学文本识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于自动采集技术建立纺织品召回案例数据库";陈源 等;《纺织导报》;20120229;第107页 *

Also Published As

Publication number Publication date
CN113254595A (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
CN107492379B (zh) 一种声纹创建与注册方法及装置
CN111445898B (zh) 语种识别方法、装置、电子设备和存储介质
CN112380853B (zh) 业务场景交互方法、装置、终端设备及存储介质
CN112992125B (zh) 一种语音识别方法、装置、电子设备、可读存储介质
CN115544240B (zh) 文本类敏感信息识别方法、装置、电子设备和存储介质
CN110287318B (zh) 业务操作的检测方法及装置、存储介质、电子装置
CN113590764B (zh) 训练样本构建方法、装置、电子设备和存储介质
CN111931809A (zh) 数据的处理方法、装置、存储介质及电子设备
CN110633475A (zh) 基于计算机场景的自然语言理解方法、装置、系统和存储介质
CN113240510A (zh) 异常用户预测方法、装置、设备及存储介质
CN112148852A (zh) 一种智能客服方法、装置、存储介质及计算机设备
CN111354354B (zh) 一种基于语义识别的训练方法、训练装置及终端设备
CN107783958B (zh) 一种目标语句识别方法及装置
CN113254595B (zh) 闲聊识别方法、装置、电子设备及存储介质
CN115858776B (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备
CN112863518B (zh) 一种语音数据主题识别的方法及装置
CN113095073B (zh) 语料标签生成方法、装置、计算机设备和存储介质
CN111666734B (zh) 序列标注方法及装置
CN114254088A (zh) 自动应答模型的构建方法和自动应答方法
CN113111855A (zh) 一种多模态情感识别方法、装置、电子设备及存储介质
CN115438158A (zh) 智能对话方法、装置、设备及存储介质
CN112948585A (zh) 基于分类的自然语言处理方法、装置、设备、存储介质
CN114139541B (zh) 命名实体识别方法、装置、设备及介质
CN117271778B (zh) 基于生成式大模型的保险外呼会话信息输出方法及装置
CN114519357B (zh) 基于机器学习的自然语言处理方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant