CN112905745A - 信息处理方法、装置、电子设备和计算机可读存储介质 - Google Patents
信息处理方法、装置、电子设备和计算机可读存储介质 Download PDFInfo
- Publication number
- CN112905745A CN112905745A CN202110244012.9A CN202110244012A CN112905745A CN 112905745 A CN112905745 A CN 112905745A CN 202110244012 A CN202110244012 A CN 202110244012A CN 112905745 A CN112905745 A CN 112905745A
- Authority
- CN
- China
- Prior art keywords
- feedback information
- user feedback
- information
- category
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提出一种信息处理方法、装置、电子设备和计算机可读存储介质,涉及计算机技术领域。通过获取多个待处理的用户反馈信息,对多个用户反馈信息进行聚类,以将多个用户反馈信息划分为不同的类别,在任一类别中包括的信息数目大于设定阈值的情况下,表明有很多用户都在反馈同一类型的问题,故输出告警信息,以使产品的相关人员能够在第一时间知道产品出现缺陷并对缺陷进行修复。由于是通过聚类的方式将多个用户反馈信息划分为不同的类别,故不需要预先设置大量的关键词以供匹配使用,还能避免关键词匹配容易发生误判的情况,用户反馈产品没有出现过的缺陷时,也能及时告知相关人员,有效保证了用户反馈信息的查全率和查准率。
Description
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种信息处理方法、装置、电子设备和计算机可读存储介质。
背景技术
互联网技术的快速发展,使得移动互联网产品盛行,产品的日活(每天的活跃用户数量)和月活(一个月内,总的活跃用户数量)也在不断地增加。而随着产品的迭代更新,产品出现缺陷(例如,闪退、无法运行等)的概率也越来越大。产品出现缺陷时会直接影响用户使用,引起用户的不满,用户可以进行投诉或者反馈。如果产品的相关人员(如开发人员等)不能第一时间知道产品出现缺陷并介入修复,就容易导致用户流失或者资金损失的情况。因此,如何及时发现用户的反馈信息显得尤为重要。
目前,主要是通过关键词匹配的方式来判断用户是否有反馈问题或者故障,这种方式存在以下缺点:1、若用户反馈的是以前没有出现过的缺陷,则会因为关键词词库中未记录相应的关键词,而导致产品的相关人员不能及时知道产品出现缺陷;2、由于中文博大精深,相同的词汇可能有不同的含义,从而导致误判的情况。
发明内容
有鉴于此,本发明的目的在于提供一种信息处理方法、装置、电子设备和计算机可读存储介质,以解决现有技术中产品的相关人员不能及时知道产品出现缺陷以及容易发生误判的问题。
为了实现上述目的,本发明实施例采用的技术方案如下:
第一方面,本发明提供一种信息处理方法,所述方法包括:
获取多个待处理的用户反馈信息;
对多个用户反馈信息进行聚类,以将所述多个用户反馈信息划分为不同的类别;
在任一类别中包括的信息数目大于设定阈值的情况下,输出告警信息。
在可选的实施方式中,所述对多个用户反馈信息进行聚类,以将所述多个用户反馈信息划分为不同的类别,包括:
将所述多个用户反馈信息转换为对应的数字向量;
使用聚类算法对所有的数字向量进行聚类,得到每个所述数字向量所属类别。
在可选的实施方式中,所述方法还包括:
计算同一类别中的用户反馈信息之间的两两相似度;
根据所述同一类别中的用户反馈信息之间的两两相似度,确定类别划分错误的目标用户反馈信息;
将所述目标用户反馈信息从所述目标用户反馈信息所属类别中剔除。
在可选的实施方式中,所述根据所述同一类别中的用户反馈信息之间的两两相似度,确定类别划分错误的目标用户反馈信息,包括:
根据同一类别中的每个待确定用户反馈信息与其他用户反馈信息之间的相似度,确定目标相似度的个数,以及所述待确定用户反馈信息与其他用户反馈信息之间的相似度的总个数;所述目标相似度低于第一预设值;
若所述目标相似度的个数占所述总个数的比例大于第二预设值,则将所述待确定用户反馈信息确定为目标用户反馈信息。
在可选的实施方式中,所述对多个用户反馈信息进行聚类,以将所述多个用户反馈信息划分为不同的类别的步骤之前,所述方法还包括:
对所述多个用户反馈信息进行预处理。
在可选的实施方式中,所述多个用户反馈信息包括离线用户反馈信息和/或在线用户反馈信息,所述对所述多个用户反馈信息进行预处理,包括:
对所述多个用户反馈信息中的离线用户反馈信息进行第一预处理操作;所述第一预处理操作包括剔除信息长度小于第一设定长度的离线用户反馈信息、剔除属于设定无效反馈信息的离线用户反馈信息;
对所述多个用户反馈信息中的在线用户反馈信息进行第二预处理操作;所述第二预处理操作包括滤除在线用户反馈信息中的信息长度小于第二设定长度的对话信息,并选取前预设数目句话进行拼接。
第二方面,本发明提供一种信息处理装置,所述装置包括:
信息获取模块,用于获取多个待处理的用户反馈信息;
类别划分模块,用于对多个用户反馈信息进行聚类,以将所述多个用户反馈信息划分为不同的类别;
信息输出模块,用于在任一类别中包括的信息数目大于设定阈值的情况下,输出告警信息。
在可选的实施方式中,所述装置还包括:
信息处理模块,用于计算同一类别中的用户反馈信息之间的两两相似度,根据所述同一类别中的用户反馈信息之间的两两相似度,确定类别划分错误的目标用户反馈信息,将所述目标用户反馈信息从所述目标用户反馈信息所属类别中剔除。
第三方面,本发明提供一种电子设备,包括处理器和存储器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现前述实施方式任一项所述的方法。
第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述实施方式任一项所述的方法。
本发明实施例提供的信息处理方法、装置、电子设备和计算机可读存储介质,通过获取多个待处理的用户反馈信息,对多个用户反馈信息进行聚类,以将多个用户反馈信息划分为不同的类别,在任一类别中包括的信息数目大于设定阈值的情况下,表明有很多用户都在反馈同一类型的问题,故输出告警信息,以使产品的相关人员能够在第一时间知道产品出现缺陷并对缺陷进行修复。由于本发明实施例是通过聚类的方式将多个用户反馈信息划分为不同的类别,故不需要预先设置大量的关键词以供匹配使用,还能避免关键词匹配容易发生误判的情况,用户反馈产品没有出现过的缺陷时,也能及时告知相关人员,有效保证了用户反馈信息的查全率和查准率。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例提供的电子设备的一种方框示意图;
图2示出了本发明实施例提供的信息处理方法的一种流程示意图;
图3示出了本发明实施例提供的信息处理方法的另一种流程示意图;
图4示出了本发明实施例提供的信息处理方法的又一种流程示意图;
图5示出了本发明实施例提供的信息处理方法的又一种流程示意图;
图6示出了电子设备对获取的用户反馈信息进行处理的一种具体示例图;
图7示出了本发明实施例提供的信息处理装置的一种功能模块图;
图8示出了本发明实施例提供的信息处理装置的另一种功能模块图。
图标:100-电子设备;700-信息处理装置;110-存储器;120-处理器;130-通信模块;710-信息获取模块;720-类别划分模块;730-信息输出模块;740-信息处理模块;750-预处理模块。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
请参照图1,是本发明实施例提供的电子设备100的一种方框示意图。其中,电子设备100可以是,但不限于服务器、PC(Personal Computer,个人电脑)、智能手机、平板电脑等设备。该电子设备100包括存储器110、处理器120及通信模块130。存储器110、处理器120以及通信模块130各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。
其中,存储器110用于存储程序或者数据。存储器110可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(ErasableProgrammable Read-Only Memory,EPROM),电可擦除只读存储器(Electric ErasableProgrammable Read-Only Memory,EEPROM)等。
处理器120用于读/写存储器110中存储的数据或程序,并执行相应地功能。例如,处理器120执行存储器110中存储的计算机程序时,可以实现本发明实施例揭示的信息处理方法。
通信模块130用于通过网络建立电子设备100与其它通信终端之间的通信连接,并用于通过网络收发数据。
应当理解的是,图1所示的结构仅为电子设备100的结构示意图,电子设备100还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器120执行时可以实现本发明实施例揭示的信息处理方法。
请参照图2,为本发明实施例提供的信息处理方法的一种流程示意图。需要说明的是,本发明实施例提供的信息处理方法并不以图2以及以下的具体顺序为限制,应当理解,在其他实施例中,本发明实施例提供的信息处理方法其中部分步骤的顺序可以根据实际需要相互交换,或者其中的部分步骤也可以省略或删除。该信息处理方法可以应用在图1所示的电子设备100,下面将对图2所示的具体流程进行详细阐述。
步骤S201,获取多个待处理的用户反馈信息。
在本实施例中,用户在使用App(Application,应用程序)等产品的过程中,当遇到产品出现故障或缺陷,或者对产品本身有建议时,可以进行相应的反馈,故电子设备100获取的用户反馈信息可以是用户对应用程序的评价、投诉、咨询等内容。
其中,用户反馈的信息可以直接通过用户终端发送到电子设备100存储,电子设备100实时或者间隔设定时间提取出一定时间段内的用户反馈信息,例如,电子设备100每间隔1分钟提取距离当前时间10分钟内的用户反馈信息;当然,用户反馈的信息也可以先通过用户终端发送到其他设备存储,电子设备100则实时或者间隔设定时间从该其他设备中提取一定时间段内的用户反馈信息,本发明实施例对此不进行限制。
步骤S202,对多个用户反馈信息进行聚类,以将多个用户反馈信息划分为不同的类别。
聚类,简单来讲,就是将相似的事物聚集在一起,将不相似的事物划分到不同的类别的过程,这样可使得同一类别中的事物彼此相似,而与其他类别中的事物相异。因此,本实施例中利用聚类的方式,可以将提取出的多个用户反馈信息划分为不同的类别,这样同一类别中的用户反馈信息彼此之间都具有一定的相似性,即同一类别中的用户反馈信息都是针对产品反馈的同一类型的问题。
步骤S203,在任一类别中包括的信息数目大于设定阈值的情况下,输出告警信息。
在本实施例中,可预先在电子设备100中设置一个设定阈值,电子设备100在将提取出的多个用户反馈信息划分为不同的类别后,可以统计每个类别中所包含的用户反馈信息的数量,当存在某一个类别包括的信息数目大于该设定阈值时,表明当前有很多用户都在反馈同一类型的问题。在此情形下,为了使产品的相关人员及时知道并进行修复,电子设备100可以输出告警信息通知产品相关人员,从而将因产品出现缺陷影响用户使用的时长降到最低,资金损失也降到最低。
可见,本发明实施例提供的信息处理方法,通过获取多个待处理的用户反馈信息,对多个用户反馈信息进行聚类,以将多个用户反馈信息划分为不同的类别,在任一类别中包括的信息数目大于设定阈值的情况下,表明有很多用户都在反馈同一类型的问题,故输出告警信息,以使产品的相关人员能够在第一时间知道产品出现缺陷并对缺陷进行修复。由于本发明实施例是通过聚类的方式将多个用户反馈信息划分为不同的类别,故不需要预先设置大量的关键词以供匹配使用,还能避免关键词匹配容易发生误判的情况,用户反馈产品没有出现过的缺陷时,也能及时告知相关人员,有效保证了用户反馈信息的查全率和查准率。
在本实施例中,由于用户反馈的信息一般是文字,故电子设备100需要先将每个用户反馈信息转化为计算机能够理解的语言,然后将相似的用户反馈信息聚成一类。如图3所示,上述的步骤S202可以包括如下子步骤:
子步骤S2021,将多个用户反馈信息转换为对应的数字向量。
在本实施例中,电子设备100可以利用自然语言处理算法,将每个用户反馈信息转换为对应的数字向量。其中,数字向量是由数字组合成的一个数组。
在一个示例中,该电子设备100可以采用sBert(sentence-Bert)算法将输入的文字转化成一行数字向量。其中,sBert算法是一个将文字转化成数字向量的深度学习算法模块,具体应用时,可以利用sBert算法的官方实现,通过python(一种编程语言)安装sBert官方提供的模块,然后在代码里引入该模块,并使用准备好的相似文字训练集训练sBert模块的模型,后续使用训练得到的sBert模型就可以将文字转化成数字向量。例如,在代码中引入sBert模块的实现方式可以为“from sentence_transformers importSentenceTransformer”;准备相似文字的训练集(如“上电视不发奖”、“上电视中奖后,主播未兑现奖品,也没有联系过我”、“上电视抽奖有没有中在哪里看”、“屏蔽上电视弹幕没有用处,还是可以看到”、“有粉丝勋章却不能参与上电视,第二次反馈了”、“上电视中奖后按要求回复了,但两个多月了奖品仍未发出”等),将这些相似的文字句子用python送进sBert模块的模型进行训练,得到sBert模型(model);在python代码中将文字转化为数字向量的实现方式可以为“sentences=['This framework generates embeddings for each inputsentence','Sentences are passed as a list of string.','The quick brown foxjumps over the lazy dog.'];
sentence_embeddings=model.encode(sentences)”
其中,“sentence_embeddings”就是最终得到的数字向量。当然,在实际应用中,电子设备100也可以采用其他的自然语言处理算法对用户反馈信息进行处理,本发明实施例对此不进行限制。
子步骤S2022,使用聚类算法对所有的数字向量进行聚类,得到每个数字向量所属类别。
在本实施例中,电子设备100可以使用聚类算法对所有的数字向量进行聚类,将相似的数字向量聚成一类,得到每个数字向量所属类别。其中聚类算法是把相似的对象通过静态分类的方法分成不同的组别,这样让在同一个子集中的成员对象都有相似的一些属性。
在一个示例中,电子设备100可以采用kmeans算法对所有的数字向量进行聚类。例如,对于输入的n个数字向量,若指定通过聚类得到3个分组(即划分为3个类别),则对该n个数字向量采用kmeans算法进行聚类的过程可以包括:步骤A,从n个数字向量中随机选取3个数字向量分别作为初始中心位置;步骤B,对该n个数字向量中的每一个数字向量,计算该数字向量与每一个中心位置的距离,该数字向量离哪个中心位置的距离近,就将该数字向量划分为属于哪个中心位置,这时每一个中心位置都聚集了一群数字向量;步骤C,对每一个中心位置和属于该中心位置的数字向量计算平均值,得到新的中心位置信息;若新的中心位置与原中心位置之间的距离小于一个设定的距离,则聚类过程结束,得到对应的聚类结果;否则,继续迭代步骤B和步骤C,直到得到的新的中心位置与原中心位置之间的距离小于设定的距离。当然,在实际应用中,电子设备100也可以采用其他的聚类算法,本发明实施例对此不进行限制。
本发明实施例提供的信息处理方法,在对多个用户反馈信息进行聚类时,是先将每个用户反馈信息转换为对应的数字向量,然后使用聚类算法对所有的数字向量进行聚类,进而得到每个数字向量属于哪个类别,这样同一类别的数字向量所对应的用户反馈信息就代表用户在反馈同一类型的问题。
可选地,考虑到用户反馈信息的类别划分可能存在误差,即划分为同一类别的用户反馈信息实际上并不都是反馈的同一类型的问题,对此,本发明实施例提供了一种可行的实施方式。请参照图4,本发明实施例提供的信息处理方法还可以包括:
步骤S401,计算同一类别中的用户反馈信息之间的两两相似度。
在本实施例中,电子设备100可以使用Bert算法计算用户反馈信息之间的两两相似度。
步骤S402,根据同一类别中的用户反馈信息之间的两两相似度,确定类别划分错误的目标用户反馈信息。
其中,该步骤S402可以包括:根据同一类别中的每个待确定用户反馈信息与其他用户反馈信息之间的相似度,确定目标相似度的个数,以及待确定用户反馈信息与其他用户反馈信息之间的相似度的总个数;目标相似度低于第一预设值;若目标相似度的个数占总个数的比例大于第二预设值,则将待确定用户反馈信息确定为目标用户反馈信息。
例如,该第一预设值为0.7,第二预设值为0.5,若某类别中任一待确定用户反馈信息与其他用户反馈信息之间的相似度的总个数为10个,相似度低于0.7的个数(即目标相似度的个数)为8个,则目标相似度的个数占总个数的比例为0.8,由于0.8大于0.5,故该待确定用户反馈信息为目标用户反馈信息,属于该类别中与其他用户反馈信息相似度较低的信息,与其他用户反馈信息不是反馈的同一类型的问题。
步骤S403,将目标用户反馈信息从目标用户反馈信息所属类别中剔除。
由于目标用户反馈信息是与同类别中的其他用户反馈信息的相似度都比较低的信息,故通过将该目标用户反馈信息从目标用户反馈信息所属类别中剔除,可使该类别中剩下的用户反馈信息之间的相似度都比较高。如此,可有效提高产品出现故障或缺陷时的告警准确率。
在一个实施例中,电子设备100在获取用户反馈信息后,可以先将每个用户反馈信息转换为对应的数字向量,通过对所有的数字向量进行聚类,得到每个数字向量所属类别,然后使用Bert算法对同一类别的数字向量之间进行两两相似度的计算,根据两两相似度的计算结果,将同一类别中与大部分数字向量的相似度都较低的数字向量剔除,最终每个类别中剩下的都是相似度比较高的数字向量,各数字向量所对应的用户反馈信息都是反馈同一类型的问题。当任一类别中剩下的数字向量的数量大于设定阈值时,电子设备100输出告警信息,以通知产品的相关人员进行问题修复。其中,电子设备100输出的告警信息中可以包括该类别中各数字向量所对应的用户反馈信息,便于产品的相关人员知晓产品出现的问题是什么。
可选地,在实际应用中,电子设备100获取的用户反馈信息中可能存在一些无效的信息,从而影响后续的类别划分。针对此情形,本发明实施例提供了一种可行的实施方式,请参照图5,在步骤S202之前,该信息处理方法还可以包括:
步骤S501,对多个用户反馈信息进行预处理。
在本实施例中,电子设备100在提取出多个待处理的用户反馈信息后,对该多个用户反馈信息进行预处理,可将一些无效的内容剔除掉,进而得到有效的用户反馈信息。
可选地,电子设备100获取的多个用户反馈信息可以包括离线用户反馈信息和/或在线用户反馈信息。其中,离线用户反馈信息可以是用户通过在App、网页上点击反馈按钮,所填写的反馈意见、投诉等内容;在线用户反馈信息可以是用户通过点击在线人工客服或智能客服所进行的对话内容。当然,在实际应用中,电子设备100获取的多个用户反馈信息还可以包括其他内容,例如直播过程中的弹幕信息。
电子设备100在对多个用户反馈信息进行预处理时,针对不同类型的用户反馈信息,可以采用不同的预处理操作。因此,上述的步骤S501可以包括:对多个用户反馈信息中的离线用户反馈信息进行第一预处理操作;第一预处理操作包括剔除信息长度小于第一设定长度的离线用户反馈信息、剔除属于设定无效反馈信息的离线用户反馈信息;对多个用户反馈信息中的在线用户反馈信息进行第二预处理操作;第二预处理操作包括滤除在线用户反馈信息中的信息长度小于第二设定长度的对话信息,并选取前预设数目句话进行拼接。
其中,第一设定长度和第二设定长度可以相同,也可以不同,本实施例对此不进行限制。例如,第一设定长度和第二设定长度均为3个文字,对于离线用户反馈信息的第一预处理操作,可以将一些无效的用户反馈信息剔除掉,无效的用户反馈信息包括信息长度小于3个文字和一些特定的无效反馈信息;对于在线用户反馈信息的第二预处理操作,可以将用户与客服的聊天对话中小于3个文字的对话过滤掉,然后在剩余对话中提取出前三句话拼接起来形成一条完整的内容,用于参与后续的聚类运算并进行类别划分。
下面,结合图6所示的流程对本发明实施例提供的信息处理方法进行举例说明。电子设备100可以每隔一段时间(例如,1分钟)执行以下操作:先提取距离当前10分钟内的离线用户反馈信息和在线用户反馈信息,并对离线用户反馈信息和在线用户反馈信息进行预处理,以得到有效的离线用户反馈信息和在线用户反馈信息;然后使用sBert算法将每个用户反馈信息转换为计算机能够理解的数字向量,并使用聚类算法对所有的数字向量进行聚类,得到每个数字向量所属类别。为了使每个类别中的数字向量之间的相似度都比较高,进而提高产品出现故障时的告警准确率,电子设备100可以使用Bert算法对同一类别的数字向量之间进行两两相似度的计算,根据两两相似度的计算结果,将同一类别中与大部分数字向量的相似度都较低的数字向量剔除,最终每个类别中剩下的都是相似度比较高的数字向量,各数字向量所对应的用户反馈信息也都是反馈同一类型的问题。统计每个类别中的数字向量的数量,当存在某个类别中的数字向量的数量大于设定阈值,则进行告警通知,实现了产品出现缺陷的时候相关人员能够及时收到告警并修复产品缺陷。
为了执行上述实施例及各个可能的方式中的相应步骤,下面给出一种信息处理装置的实现方式。请参阅图7,图7为本发明实施例提供的一种信息处理装置700的功能模块图。需要说明的是,本实施例所提供的信息处理装置700,其基本原理及产生的技术效果和上述实施例相同,为简要描述,本实施例部分未提及之处,可参考上述的实施例中相应内容。该信息处理装置700包括:信息获取模块710、类别划分模块720和信息输出模块730。
可选地,上述模块可以软件或固件(Firmware)的形式存储于图1所示的存储器110中或固化于该电子设备100的操作系统(Operating System,OS)中,并可由图1中的处理器120执行。同时,执行上述模块所需的数据、程序的代码等可以存储在存储器110中。
该信息获取模块710,用于获取多个待处理的用户反馈信息。
可以理解,该信息获取模块710可以执行上述步骤S201。
该类别划分模块720,用于对多个用户反馈信息进行聚类,以将多个用户反馈信息划分为不同的类别。
可以理解,该类别划分模块720可以执行上述步骤S202。
该信息输出模块730,用于在任一类别中包括的信息数目大于设定阈值的情况下,输出告警信息。
可以理解,该信息输出模块730可以执行上述步骤S203。
可选地,该类别划分模块720具体用于将多个用户反馈信息转换为对应的数字向量;使用聚类算法对所有的数字向量进行聚类,得到每个数字向量所属类别。
可以理解,该类别划分模块720可以执行上述子步骤S2021~S2022。
可选地,如图8所示,该信息处理装置700还可以包括信息处理模块740,该信息处理模块740用于计算同一类别中的用户反馈信息之间的两两相似度,根据同一类别中的用户反馈信息之间的两两相似度,确定类别划分错误的目标用户反馈信息,将目标用户反馈信息从目标用户反馈信息所属类别中剔除。
其中,该信息处理模块740具体用于根据同一类别中的每个待确定用户反馈信息与其他用户反馈信息之间的相似度,确定目标相似度的个数,以及待确定用户反馈信息与其他用户反馈信息之间的相似度的总个数;目标相似度低于第一预设值;若目标相似度的个数占总个数的比例大于第二预设值,则将待确定用户反馈信息确定为目标用户反馈信息。
可以理解,该信息处理模块740可以执行上述步骤S401~S403。
可选地,该信息处理装置700还可以包括预处理模块750,该预处理模块750用于对多个用户反馈信息进行预处理。
其中,该信息处理装置700具体用于对多个用户反馈信息中的离线用户反馈信息进行第一预处理操作;第一预处理操作包括剔除信息长度小于第一设定长度的离线用户反馈信息、剔除属于设定无效反馈信息的离线用户反馈信息;对多个用户反馈信息中的在线用户反馈信息进行第二预处理操作;第二预处理操作包括滤除在线用户反馈信息中的信息长度小于第二设定长度的对话信息,并选取前预设数目句话进行拼接。
可以理解,该预处理模块750可以执行上述步骤S501。
本发明实施例提供的信息处理装置700,通过信息获取模块710获取多个待处理的用户反馈信息,类别划分模块720对多个用户反馈信息进行聚类,以将多个用户反馈信息划分为不同的类别,信息输出模块730在任一类别中包括的信息数目大于设定阈值的情况下,输出告警信息。由于是通过聚类的方式将多个用户反馈信息划分为不同的类别,故不需要预先设置大量的关键词以供匹配使用,还能避免关键词匹配容易发生误判的情况,用户反馈产品没有出现过的缺陷时,也能及时告知产品的相关人员,有效保证了用户反馈信息的查全率和查准率。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种信息处理方法,其特征在于,所述方法包括:
获取多个待处理的用户反馈信息;
对多个用户反馈信息进行聚类,以将所述多个用户反馈信息划分为不同的类别;
在任一类别中包括的信息数目大于设定阈值的情况下,输出告警信息。
2.根据权利要求1所述的方法,其特征在于,所述对多个用户反馈信息进行聚类,以将所述多个用户反馈信息划分为不同的类别,包括:
将所述多个用户反馈信息转换为对应的数字向量;
使用聚类算法对所有的数字向量进行聚类,得到每个所述数字向量所属类别。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
计算同一类别中的用户反馈信息之间的两两相似度;
根据所述同一类别中的用户反馈信息之间的两两相似度,确定类别划分错误的目标用户反馈信息;
将所述目标用户反馈信息从所述目标用户反馈信息所属类别中剔除。
4.根据权利要求3所述的方法,其特征在于,所述根据所述同一类别中的用户反馈信息之间的两两相似度,确定类别划分错误的目标用户反馈信息,包括:
根据同一类别中的每个待确定用户反馈信息与其他用户反馈信息之间的相似度,确定目标相似度的个数,以及所述待确定用户反馈信息与其他用户反馈信息之间的相似度的总个数;所述目标相似度低于第一预设值;
若所述目标相似度的个数占所述总个数的比例大于第二预设值,则将所述待确定用户反馈信息确定为目标用户反馈信息。
5.根据权利要求1所述的方法,其特征在于,所述对多个用户反馈信息进行聚类,以将所述多个用户反馈信息划分为不同的类别的步骤之前,所述方法还包括:
对所述多个用户反馈信息进行预处理。
6.根据权利要求5所述的方法,其特征在于,所述多个用户反馈信息包括离线用户反馈信息和/或在线用户反馈信息,所述对所述多个用户反馈信息进行预处理,包括:
对所述多个用户反馈信息中的离线用户反馈信息进行第一预处理操作;所述第一预处理操作包括剔除信息长度小于第一设定长度的离线用户反馈信息、剔除属于设定无效反馈信息的离线用户反馈信息;
对所述多个用户反馈信息中的在线用户反馈信息进行第二预处理操作;所述第二预处理操作包括滤除在线用户反馈信息中的信息长度小于第二设定长度的对话信息,并选取前预设数目句话进行拼接。
7.一种信息处理装置,其特征在于,所述装置包括:
信息获取模块,用于获取多个待处理的用户反馈信息;
类别划分模块,用于对多个用户反馈信息进行聚类,以将所述多个用户反馈信息划分为不同的类别;
信息输出模块,用于在任一类别中包括的信息数目大于设定阈值的情况下,输出告警信息。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
信息处理模块,用于计算同一类别中的用户反馈信息之间的两两相似度,根据所述同一类别中的用户反馈信息之间的两两相似度,确定类别划分错误的目标用户反馈信息,将所述目标用户反馈信息从所述目标用户反馈信息所属类别中剔除。
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1-6任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110244012.9A CN112905745A (zh) | 2021-03-05 | 2021-03-05 | 信息处理方法、装置、电子设备和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110244012.9A CN112905745A (zh) | 2021-03-05 | 2021-03-05 | 信息处理方法、装置、电子设备和计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112905745A true CN112905745A (zh) | 2021-06-04 |
Family
ID=76107745
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110244012.9A Pending CN112905745A (zh) | 2021-03-05 | 2021-03-05 | 信息处理方法、装置、电子设备和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112905745A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113723093A (zh) * | 2021-08-31 | 2021-11-30 | 平安科技(深圳)有限公司 | 人员管理策略推荐方法、装置、计算机设备及存储介质 |
CN114036293A (zh) * | 2021-11-03 | 2022-02-11 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置及电子设备 |
CN116340831A (zh) * | 2023-05-24 | 2023-06-27 | 京东科技信息技术有限公司 | 一种信息分类方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104820629A (zh) * | 2015-05-14 | 2015-08-05 | 中国电子科技集团公司第五十四研究所 | 一种智能的舆情突发事件应急处理系统及方法 |
CN106559262A (zh) * | 2016-11-03 | 2017-04-05 | 大唐融合通信股份有限公司 | 一种区域故障报警方法及系统 |
CN110096406A (zh) * | 2018-01-31 | 2019-08-06 | 阿里巴巴集团控股有限公司 | 一种故障事件发现方法和服务器 |
CN110414591A (zh) * | 2019-07-24 | 2019-11-05 | 腾讯科技(武汉)有限公司 | 一种数据处理方法以及设备 |
-
2021
- 2021-03-05 CN CN202110244012.9A patent/CN112905745A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104820629A (zh) * | 2015-05-14 | 2015-08-05 | 中国电子科技集团公司第五十四研究所 | 一种智能的舆情突发事件应急处理系统及方法 |
CN106559262A (zh) * | 2016-11-03 | 2017-04-05 | 大唐融合通信股份有限公司 | 一种区域故障报警方法及系统 |
CN110096406A (zh) * | 2018-01-31 | 2019-08-06 | 阿里巴巴集团控股有限公司 | 一种故障事件发现方法和服务器 |
CN110414591A (zh) * | 2019-07-24 | 2019-11-05 | 腾讯科技(武汉)有限公司 | 一种数据处理方法以及设备 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113723093A (zh) * | 2021-08-31 | 2021-11-30 | 平安科技(深圳)有限公司 | 人员管理策略推荐方法、装置、计算机设备及存储介质 |
CN113723093B (zh) * | 2021-08-31 | 2024-01-19 | 平安科技(深圳)有限公司 | 人员管理策略推荐方法、装置、计算机设备及存储介质 |
CN114036293A (zh) * | 2021-11-03 | 2022-02-11 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置及电子设备 |
CN114036293B (zh) * | 2021-11-03 | 2023-06-06 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置及电子设备 |
CN116340831A (zh) * | 2023-05-24 | 2023-06-27 | 京东科技信息技术有限公司 | 一种信息分类方法、装置、电子设备及存储介质 |
CN116340831B (zh) * | 2023-05-24 | 2024-02-06 | 京东科技信息技术有限公司 | 一种信息分类方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Schmidt-Catran et al. | The random effects in multilevel models: Getting them wrong and getting them right | |
Moreno-Marcos et al. | Sentiment analysis in MOOCs: A case study | |
Van Der Meer | Automated content analysis and crisis communication research | |
CN112905745A (zh) | 信息处理方法、装置、电子设备和计算机可读存储介质 | |
US10853697B2 (en) | System and method for monitoring online retail platform using artificial intelligence and fixing malfunction | |
CN110909165A (zh) | 数据处理方法、装置、介质及电子设备 | |
CN107193974B (zh) | 基于人工智能的地域性信息确定方法和装置 | |
CN109284371A (zh) | 反欺诈方法、电子装置及计算机可读存储介质 | |
KR102078627B1 (ko) | 사용자-입력 컨텐츠와 연관된 실시간 피드백 정보 제공 방법 및 시스템 | |
CN110245355B (zh) | 文本话题检测方法、装置、服务器及存储介质 | |
CN112995690A (zh) | 直播内容品类识别方法、装置、电子设备和可读存储介质 | |
US11431472B1 (en) | Automated domain language parsing and data extraction | |
Apostol et al. | ContCommRTD: A distributed content-based misinformation-aware community detection system for real-time disaster reporting | |
CN113705250B (zh) | 会话内容识别方法、装置、设备及计算机可读介质 | |
CN111639485A (zh) | 基于文本相似性的课程推荐方法及相关设备 | |
US20190208370A1 (en) | Connected interest group formation | |
Tauhid et al. | Sentiment analysis of indonesians response to influencer in social media | |
US20230419048A1 (en) | Systems and methods for a reading and comprehension assistance tool | |
Kleer et al. | The impact of company-generated posts with crisis-related content on online engagement behavior | |
CN116795978A (zh) | 一种投诉信息处理方法、装置、电子设备及介质 | |
CN110674632A (zh) | 一种确定安全级别的方法及装置、存储介质和设备 | |
Saini et al. | A Hybrid LSTM-BERT and Glove-based Deep Learning Approach for the Detection of Fake News | |
KR20230059364A (ko) | 언어 모델을 이용한 여론조사 시스템 및 운영 방법 | |
CN114791945A (zh) | 智能运维方法及其装置、电子设备及存储介质 | |
CN115730064A (zh) | 一种关键词处理方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |