CN104036015A - 一种电子终端问题分类及解决方案提供方法、系统及装置 - Google Patents

一种电子终端问题分类及解决方案提供方法、系统及装置 Download PDF

Info

Publication number
CN104036015A
CN104036015A CN201410289699.8A CN201410289699A CN104036015A CN 104036015 A CN104036015 A CN 104036015A CN 201410289699 A CN201410289699 A CN 201410289699A CN 104036015 A CN104036015 A CN 104036015A
Authority
CN
China
Prior art keywords
electric terminal
solution
mark post
classification
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410289699.8A
Other languages
English (en)
Inventor
李月雷
吕习彪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qili Software Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201410289699.8A priority Critical patent/CN104036015A/zh
Publication of CN104036015A publication Critical patent/CN104036015A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种电子终端问题分类及解决方案提供方法及装置,该方法对方案数据库中保存的用户提问的电子终端问题进行聚类,将同一解决方案解决的电子终端问题聚合到一个类别中,在每个类别中确定标杆问题,建立解决方案和标杆问题的对应关系,从而向用户提供解决方案。由于在本发明实施例中对方案数据库中的电子终端问题进行了聚类,并在每个类别中确定了标杆问题,从而建立了每个解决方案和标杆问题的对应关系,在进行搜索时根据该对应关系即可确定电子终端问题的解决方案,提高了解决方案提供的效率,满足了向用户提供解决方案的实时性需求。

Description

一种电子终端问题分类及解决方案提供方法、系统及装置
技术领域
本发明涉及数据处理技术领域,尤其涉及一种电子终端问题分类及解决方案提供方法、系统及装置。
背景技术
随着PC技术和互联网技术的不断发展,用户对互联网的依赖越来越大。当用户存在问题需要解决时,一般都会直接到互联网上进行搜索,获取相应的解决方案。例如,出现与电子终端(电脑、移动终端等),比如用户存在电脑相关的问题时,一般用户会将电脑问题提供给搜索引擎,搜索引擎根据问题反馈与之相关的网页结果,用户需要手工逐一浏览网页和筛选,一一尝试解决电脑问题。导致用户耗时较长,无法满足用户对解决方案提供的实时性要求,影响用户的体验。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种电子终端问题分类及解决方案提供方法、系统及装置。
本发明实施例提供了一种电子终端问题分类方法,该方法包括:
对方案数据库中保存的用户提问的每个电子终端问题进行聚类,将同一解决方案解决的电子终端问题聚合到一个类别中;
在每个类别中,确定至少一个标杆问题;
建立方案数据库中每个解决方案和至少一个标杆问题的对应关系,该对应关系用于向用户提供解决方案。
进一步地,所述在每个类别中,确定至少一个标杆问题包括:
在每个类别中,根据电子终端问题间的文本相似度,确定每个类别中的至少一个标杆问题。
进一步地,所述根据电子终端问题间的文本相似度,确定每个类别中的至少一个标杆问题包括:
确定每两个电子终端问题间的文本相似度;
判断该文本相似度是否大于设定的阈值;
当该文本相似度大于设定的阈值时,提取该两个电子终端问题作为该类别的标杆问题。
进一步地,所述在每个类别中,确定至少一个标杆问题包括:
根据电子终端问题间的文本相似度,及设定时间长度内每个电子终端问题被用户提问的频次,提取每个类别中的至少一个标杆问题。
进一步地,所述提取每个类别中的至少一个标杆问题包括:
在每个类别中,确定每两个电子终端问题间的文本相似度;
识别文本相似度阈值大于设定阈值的每两个电子终端问题;
根据设定时间长度内该识别出的电子终端问题被用户提问的频次,提取至少一个标杆问题。
进一步地,所述对方案数据库中的电子终端问题进行聚类包括:
采用Kmeans聚类算法,对方案数据库中的电子终端问题进行聚类。
一种基于电子终端问题分类的解决方案提供方法,所述方法包括:
接收用户提问的电子终端问题;
判断所述电子终端问题是否命中线下统计出的方案数据库中各个的标杆问题中的一个或多个,确定所述电子终端问题与所述命中的各标杆问题所对应的一个或多个解决方案的相似度;
汇总所述电子终端问题与所述每个解决方案的相似度,确定该电子终端问题对应的解决方案,并将该解决方案提供给用户。
进一步地,所述确定每个电子终端问题与命中的各标杆问题对应的一个或多个解决方案的相似度包括:
针对每个解决方案,统计该用户提问的电子终端问题与该解决方案中的每个标杆问题的文本相似度;
确定文本相似度的最大值;
将所述最大值作为该电子终端问题与该解决方案的相似度。
本发明实施例提供了一种电子终端问题分类装置,该装置包括:
方案数据库,用于保存用户提问的每个电子终端问题及其对应的解决方案;
聚类模块,用于对方案数据库中的电子终端问题进行聚类,将同一解决方案解决的电子终端问题聚合到一个类别中;
提取模块,用于在每个类别中,确定至少一个标杆问题;
所述方案数据库,还用于根据提取模块在每个类别中确定的至少一个标杆问题,建立每个解决方案和至少一个标杆问题的对应关系,该对应关系用于向用户提供解决方案。
进一步地,所述提取模块,具体用于在每个类别中,根据电子终端问题间的文本相似度,确定每个类别中的至少一个标杆问题。
进一步地,所述提取模块,具体用于确定每两个电子终端问题间的文本相似度;判断该文本相似度是否大于设定的阈值;当该文本相似度大于设定的阈值时,提取该两个电子终端问题作为该类别的标杆问题。
进一步地,所述提取模块,具体用于根据电子终端问题间的文本相似度,及设定时间长度内每个电子终端问题被用户提问的频次,提取每个类别中的至少一个标杆问题。
进一步地,所述提取模块,具体用于在每个类别中,确定每两个电子终端问题间的文本相似度;识别文本相似度阈值大于设定阈值的每两个电子终端问题;根据设定时间长度内该识别出的电子终端问题被用户提问的频次,提取至少一个标杆问题。
本发明实施例提供了一种基于电子终端问题分类装置的解决方案提供系统,所述系统包括:
接收模块,用于接收用户提问的电子终端问题;
方案数据库,用于存储每个解决方案和至少一个标杆问题的对应关系;
方案匹配模块,用于判断所述电子终端是否命中线下统计出的方案数据库中各标杆问题中的一个或多个,确定所述电子终端问题与所述命中的各标杆问题所对应的一个或多个解决方案的相似度,汇总所述电子终端问题与所述每个解决方案的相似度,确定该电子终端问题对应的解决方案;
提供模块,用于将该解决方案提供给用户。
进一步地,所述方案匹配模块,具体用于针对每个解决方案,统计该用户提问的电子终端问题与该解决方案中的每个标杆问题的文本相似度;确定文本相似度的最大值;将所述最大值作为该电子终端问题与该解决方案的相似度。
本发明实施例提供了一种电子终端问题分类及解决方案提供方法及装置,该方法对方案数据库中保存的用户提问的电子终端问题进行聚类,将同一解决方案解决的电子终端问题聚合到一个类别中,在每个类别中确定标杆问题,建立解决方案和标杆问题的对应关系,从而向用户提供解决方案。由于在本发明实施例中对方案数据库中的电子终端问题进行了聚类,并在每个类别中确定了标杆问题,从而建立了每个解决方案和标杆问题的对应关系,在进行搜索时根据该对应关系即可确定电子终端问题的解决方案,提高了解决方案提供的效率,满足了向用户提供解决方案的实时性需求。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明实施例提供的一种电子终端问题分类过程图;
图2为本发明实施例一提供的一种电子终端问题分类的过程图;
图3为本发明实施例二提供的一种电子终端问题分类过程示意图;
图4为本发明实施例提供的一种基于电子终端问题分类方法的解决方案提供过程示意图;
图5为本发明实施例提供的一种解决方案提供过程示意图;
图6A为本发明实施例提供的采用线下电子终端问题分类方法及线上解决方案提供方法的示意图;
图6B为本发明实施例提供的一种电子终端问题分类装置结构示意图;
图7为本发明实施例提供的一种基于电子终端问题分类装置的解决方案提供系统结构示意图。
具体实施方式
为了提高解决方案的提供效率,满足用户对解决方案的实时性需求,本发明实施例提供了一种电子终端问题分类及解决方案提供方法、系统及装置。
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
下面结合说明书附图,对本发明实施例进行详细说明。
图1为本发明实施例提供的一种电子终端问题分类过程图,该过程包括以下步骤:
S101:对方案数据库中保存的用户提问的每个电子终端问题进行聚类,将同一解决方案解决的电子终端问题聚合到一个类别中。
方案数据库中保存有历史上用户提问的每个电子终端问题,并针对每个电子终端问题保存有解决该电子终端问题的解决方案,该解决方案包括:工具包和URL文章,工具包是可以在用户本地设备运行的批处理文件,URL文章的该URL对应的网页描述了一系列的操作步骤。电子终端包括:电脑、移动终端、IPAD平板电脑等。
存在同一解决方案解决多个电子终端问题的情况,本发明实施例中,为了实现对解决方案的细粒度划分,针对每个电子终端问题进行聚类时,将同一解决方案解决的技术问题聚合到一个类别中。根据每个解决方案解决的电子终端问题,每个类别中可能包括一个或两个以上的电子终端问题。
S102:在每个类别中,确定至少一个标杆问题。
在本发明实施例中标杆问题(stand question)为具有代表性的电子终端问题。确定的标杆问题可以是一个,两个或者多个。在每个类别中确定的标杆问题的数量可以相同,也可以不同,例如在解决方案1对应的类别中确定了3个标杆问题,在解决方案2对应的类别中确定了2个标杆问题,或者,在每个解决方案对应的类别中都确定了4个标杆问题等等。
将电子终端问题聚类后,聚类后得到的类别数量与解决方案的数量相同。在每个类别中确定至少一个标杆问题时,可以采用多种方法,例如将该类别中的任意一个电子终端问题作为标杆问题,或者,也可以按照每个类别中电子终端问题的排列位置,将排列在最前面的电子终端问题作为标杆问题,或者,也可以根据电子终端问题之间的文本相似度,确定标杆问题。具体在使用时,可以根据需要任意选定相应的确定方法。文本相似度是两个电子终端问题的文本之间的相似程度,文本相似度越大,两个文本之间的相似程度越大,反之亦然。
S103:建立方案数据库中每个解决方案和至少一个标杆问题的对应关系,该对应关系用于向用户提供解决方案。
在每个解决方案对应的类别中确定至少一个标杆问题,为了便于向用户提供解决方案,在方案数据库中建立该解决方案与每个标杆问题的对应关系。例如在解决方案1对应的类别中确定了两个标杆问题,分别为标杆问题1和标杆问题2,则建立解决方案1与标杆问题1的对应关系,并建立解决方案1与标杆问题2的对应关系。
由于在本发明实施例中对方案数据库中的电子终端问题进行了聚类,并在每个类别中确定了标杆问题,从而建立了每个解决方案和标杆问题的对应关系,在进行搜索时根据该对应关系即可确定电子终端问题的解决方案,提高了解决方案提供的效率,满足了向用户提供解决方案的实时性需求。
本发明实施例中方案数据库中保存有历史上用户提出的电子终端问题,并针对每个电子终端问题保存有解决该电子终端问题的解决方案,即在方案数据库中保存有电子终端问题及其对应的解决方案。
根据每个解决方案,对方案数据库中保存的用户提问的电子终端问题进行聚类时,可以采用常用的聚类算法,例如Kmeans聚类算法或者Agnes聚类算法等。当采用Kmeans聚类算法对电子终端问题进行聚类时,可以根据每个解决方案设置中心点,根据每个电子终端问题与中心点的距离,将每个电子终端问题划分到相应的类别中,其中每个类别中包含的电子终端问题不重复,即每个电子终端问题只能位于一个类别中,每个类别中的电子终端问题都可以通过同一解决方案解决。
确定了每个类别中的电子终端问题后,确定该类别中的至少一个标杆问题时,可以采用任意方式确定。在本发明实施例中,为了保证确定出的标杆问题能够代表该类别所有电子终端问题,从而提高后续向用户的提供解决方案的准确性,确定该类别中的至少一个标杆问题,可以在每个类别中,根据电子终端问题间的文本相似度,确定每个类别中的至少一个标杆问题。
具体的,在根据电子终端问题间的文本相似度,确定每个类别中的至少一个标杆问题时包括:
确定每两个电子终端问题间的文本相似度;
判断该文本相似度是否大于设定的阈值;
当该文本相似度大于设定的阈值时,提取该两个电子终端问题作为该类别的标杆问题。
图2为本发明实施例一提供的一种电子终端问题分类的过程图,该过程包括以下步骤:
S201:对方案数据库中保存的用户提问的每个电子终端问题进行聚类,将同一解决方案解决的电子终端问题聚合到一个类别中。
S202:在每个类别中,确定每两个电子终端问题间的文本相似度。
S203:针对每两个电子终端问题之间的文本相似度,判断该文本相似度是否大于设定的阈值,当判断结果为是时,进行步骤S204,否则,进行步骤S205。
S204:提取该两个电子终端问题作为该类别的标杆问题。
S205:确定该两个电子终端问题非该类别的标杆问题。
S206:建立方案数据库中每个解决方案和至少一个标杆问题的对应关系,该对应关系用于向用户提供解决方案。
在本发明实施例中将同一解决方案解决的电子终端问题聚合到一个类别中后,针对每个类别,在该类别中确定至少一个标杆问题时,根据电子终端问题间的文本相似度。具体的,在该类别中,确定每两个电子终端问题间的文本相似度时,可以将该类别中的该两个电子终端问题进行分词,得到每个基础词,比较该两个电子终端问题间存在相同基础词的数量,根据该两个电子终端问题间出现相同基础词的数量,及该两个电子终端问题分词得到的基础词数量,确定该两个电子终端问题间的文本相似度。或者,也可以是根据该两个电子终端问题间出现相同基础词的数量,及该两个电子终端问题分词得到的非相同基础词的数量,确定该两个电子终端问题间的文本相似度。
为了保证确定的标杆问题的准确性,使标杆问题准确的代表该类别的电子终端问题,在对每个电子终端问题进行分词,得到每个基础词后,对每个基础词进行过滤,根据过滤后的基础词,在每个类别中确定至少一个标杆问题。该过滤过程可以将基础词中的停止词过滤掉,其中停止词为无语义的词,例如“的”、“了”、“很”、“非常”等等词。
具体的,例如方案数据库中保存的两个用户提问的电子终端问题“电脑很卡”和“电脑卡的不行了”,该两个电子终端问题被聚类到同一类别中。针对该两个电子终端问题,进行分词,得到每个基础词。
其中“电脑很卡”进行分词后,得到基础词“电脑”、“很”和“卡”,对基础词进行过滤,去掉该基础词中作为停止词的“很”。过滤后得到每个基础词为:“电脑、卡”。
“电脑卡的不行了”进行分词后,得到基础词“电脑”、“卡”、“的”、“不行”和“了”,去掉该基础词中作为停止词的“的”和“了”。过滤后得到每个基础词分别为:“电脑、卡、不行”。
则两个电子终端问题间的文本相似度为:2/5=0.4,或者电子终端问题间的文本相似度也可以为:2/1=2。
采用上述方法确定了每两个电子终端问题间的文本相似度后,判断该对电子终端问题的文本相似度是否大于设定的阈值,当该对电子终端问题的文本相似度大于设定的阈值时,提取该对电子终端问题作为该类别的标杆问题。
或者,在确定标杆问题时,也可以设置确定的标杆问题的数量,根据确定的每对电子终端问题的文本相似度,将每对电子终端问题的文本相似度按照从大到小的顺序,将每对电子终端问题从前往后进行排序,根据标杆问题的数量,从前往后提取该数量的电子终端问题作为标杆问题。
确定了每个类别的至少一个标杆问题后,在方案数据库中建立解决方案和至少一个标杆问题的对应关系,用于向用户提供解决方案。
进一步地,为了使确定的标杆问题准确的代表该类别中的其他电子终端问题,在本发明实施例中,确定至少一个标杆问题时,根据电子终端问题间的文本相似度,及设定时间长度内每个电子终端问题被用户提问的频次,提取每个类别中的至少一个标杆问题。
具体的,在提取每个类别中的至少一个标杆问题时包括:
在每个类别中,确定每两个电子终端问题间的文本相似度;
识别文本相似度阈值大于设定阈值的每两个电子终端问题;
根据设定时间长度内该识别出的电子终端问题被用户提问的频次,提取至少一个标杆问题。
图3为本发明实施例二提供的一种电子终端问题分类过程示意图,该过程包括以下步骤:
S301:对方案数据库中保存的用户提问的每个电子终端问题进行聚类,将同一解决方案解决的电子终端问题聚合到一个类别中。
S302:在每个类别中,确定每两个电子终端问题间的文本相似度。
S303:针对每两个电子终端问题之间的文本相似度,判断该文本相似度是否大于设定的阈值,当判断结果为是时,进行步骤S304,否则,进行步骤S305。
S304:提取该两个电子终端问题,之后进行步骤S306。
S305:不提取该两个电子终端问题。
S306:根据设定时间长度内该提取出的电子终端问题被用户提问的频次,提取至少一个标杆问题。
S307:建立方案数据库中每个解决方案和至少一个标杆问题的对应关系,该对应关系用于向用户提供解决方案。
在本发明的上述实施例中,在每个类别中,确定每两个电子终端问题的文本相似度时,可以将该类别中的该两个电子终端问题进行分词,得到每个基础词,比较该两个电子终端问题间存在相同基础词的数量,根据该两个电子终端问题间出现相同基础词的数量,及该两个电子终端问题分词得到的基础词数量,确定该两个电子终端问题间的文本相似度。或者,也可以是根据该两个电子终端问题间出现相同基础词的数量,及该两个电子终端问题分词得到的非相同基础词的数量,确定该两个电子终端问题间的文本相似度。
为了保证确定的标杆问题的准确性,使标杆问题准确的代表该类别的电子终端问题,在对每个电子终端问题进行分词,得到每个基础词后,对每个基础词进行过滤,根据过滤后的基础词,在每个类别中确定至少一个标杆问题。该过滤过程可以将基础词中的停止词过滤掉,其中停止词为无语义的词,例如“的”、“了”、“很”、“非常”等等词。
根据每个电子终端问题过滤后得到的基础词,确定每两个电子终端问题的文本相似度。根据确定的每两个电子终端问题(每对电子终端问题)的文本相似度,判断每对电子终端问题的文本相似度是否大于设定的阈值,当该对电子终端问题的文本相似度大于设定的阈值时,提取该对电子终端问题。
针对每个类别,根据该类别中提取的电子终端问题,统计设定时间长度内该提取的每个电子终端问题被用户提问的频次,提取至少一个标杆问题。该设定时间长度可以是一周,或者一个月,也可以是一天,一个小时等,可以根据需要灵活设定。当在设定时间长度内,用户在浏览器中输入电子终端问题,并向搜索引擎提交针对该电子终端问题的搜索请求时,针对该电子终端问题,将该电子终端问题被提问的频次加一。
具体的,根据设定时间长度内该提取的每个电子终端问题的频次,按照频次由高到底的顺序,将每个电子终端问题从前往后进行排序,从前面开始提取至少一个电子终端问题作为标杆问题。确定了每个类别的至少一个标杆问题后,在方案数据库中建立解决方案和至少一个标杆问题的对应关系,用于向用户提供解决方案。
上述在方案数据库中建立解决方案和至少一个标杆问题的对应关系,是采用线下方式建立的,待方案数据库中的对应关系建立完毕后,即可采用线上方式向用户提供对应的解决方案。
图4为本发明实施例提供的一种基于电子终端问题分类方法的解决方案提供过程示意图,该过程包括以下步骤:
S401:接收用户提问的电子终端问题。
S402:判断所述电子终端问题是否命中线下统计出的方案数据库各个标杆问题中的一个或多个,确定所述电子终端问题与所述命中的各标杆问题所对应的一个或几个解决方案的相似度。
采用线下方式在方案数据库中建立有每个解决方案和至少一个标杆问题的对应关系,接收到用户提问的电子终端问题后,确定该电子终端问题与每个标杆问题的文本相似度。具体的,确定该电子终端问题与每个标杆问题的文本相似度时,将该电子终端问题和每个标杆问题进行分词,根据得到的每个基础词,确定该电子终端问题与每个标杆问题的文本相似度,从而确定该电子终端问题命中的各个标杆问题。
确定了该电子终端问题与每个标杆问题的文本相似度后,根据每个解决方案对应的标杆问题与该用户提问的电子终端问题的文本相似度,可以任意选择一个文本相似度,作为该用户提问的电子终端问题与该解决方案的文本相似度,例如该解决方案对应的标杆问题1、标杆问题2和标杆问题3与该用户提问的电子终端问题的文本相似度分别为A、B、C,则可以选择A、B、C中的任意一个作为该解决方案与该用户提问的电子终端问题的文本相似度,或者也可以计算A、B、C的平均值,将该平均值作为该解决方案与该用户提问的电子终端问题的文本相似度,当然也可以采用其他的方式。
S403:汇总所述电子终端问题与所述每个解决方案的相似度,确定该电子终端问题对应的解决方案,并将该解决方案提供给用户。
由于在本发明实施例中对方案数据库中的电子终端问题进行了聚类,并在每个类别中确定了标杆问题,从而建立了每个解决方案和标杆问题的对应关系,在进行搜索时根据该对应关系即可确定电子终端问题的解决方案,提高了解决方案提供的效率,满足了向用户提供解决方案的实时性需求。
为了提高向用户提供的解决方案的准确性,在本发明实施例中确定该用户提问的电子终端问题与每个标杆问题的文本相似度时,在对电子终端问题进行分词,得到每个基础词后,对每个基础词进行过滤,根据过滤后的基础词,在每个类别中确定至少一个标杆问题。该过滤过程可以将基础词中的停止词过滤掉,其中停止词为无语义的词,例如“的”、“了”、“很”、“非常”等等词。
另外,为了进一步提高向用户提供的解决方案的准确性,当针对每个解决方案,确定了该用户提问的电子终端问题与该解决方案对应的每个标杆问题的文本相似度后,确定该解决方案与该用户提问的电子终端问题的文本相似度时包括:
针对每个解决方案,统计该用户提问的电子终端问题与该解决方案中的每个标杆问题的文本相似度;确定文本相似度的最大值;将所述最大值作为该电子终端问题与该解决方案的相似度。
图5为本发明实施例提供的一种解决方案提供过程示意图,该过程包括以下步骤:
S501:接收用户提问的电子终端问题。
S502:根据电子终端问题与方案数据库中的每个标杆问题的文本相似度。
S503:针对每个解决方案,统计该用户提问的电子终端问题与该解决方案中的每个标杆问题的文本相似度,将该解决方案中标杆问题与所述电子终端问题的文本相似度的最大值,作为该电子终端问题与该解决方案的相似度,将该相似度最大值对应的一个或几个标杆问题,作为该电子终端问题命中的标杆问题。
S504:根据所述电子终端问题与每个解决方案的相似度,确定该电子终端问题对应的解决方案,并将该解决方案提供给用户。
下面通过一个具体的实施方式对本发明实施例进行详细说明。
图6A为本发明实施例提供的采用线下电子终端问题分类方法及线上解决方案提供方法的示意图,在该图6A中上面的方框中是线上解决方案的提供过程,下面的方框是线下电子终端问题分类的过程。
具体的,方案数据库中保存有历史上用户提问的电子终端问题,采用线下方式针对电子终端问题进行分类时,首先提取方案数据库中历史上用户提问的每个电子终端问题,采用Kmeans聚类方法,将同一解决方案解决的电子终端问题聚合到一个类别中,在本发明实施例中为了进行区分,每个解决方案赋予唯一的编号SID。在每个类别中,确定至少一个标杆问题SQ,在方案数据库中建立每个解决方案和至少一个标杆问题的对应关系。
如下表所示,部分解决方案对应的标杆问题如下,在下表中存在三个标杆问题对应一个解决方案的情况,也有一个解决方案对应一个标杆问题的情况,具体需要根据方案数据库中的保存的电子终端问题和其对应的解决方案确定:
SID 标杆问题
781 屏幕一直不出现桌面
8890 文件夹删错
1169 电脑播放器卡
1169 全面加速
1169 怎样让电脑达到最佳状态
采用线下方式在方案数据库中建立了个解决方案和至少一个标杆问题的对应关系后,即可采用线上方式为用户提供电子终端问题的解决方案。
采用线上方式接收用户提问的电子终端问题UQ,确定该电子终端问题与每个标杆问题的相似度Sim(UQ,SQ),在本发明实施例中用Sim(UQ,SQ)表示该电子终端问题UQ与标杆问题SQ的相似度,根据确定的该电子终端问题与每个标杆问题的相似度Sim(UQ,SQ),确定该电子终端问题与每个解决方案的相似度Sim(UQ,SID),在本发明实施例中Sim(UQ,SID)=max{Sim(UQ,SQ1),Sim(UQ,SQ2)…Sim(UQ,SQn),{SQ1、SQ2、……、SQn}为该解决方案SID对应的标杆问题的集合,即在本发明实施例中确定每个电子终端问题与每个解决方案的相似度时,针对每个解决方案统计该用户提问的电子终端问题与该解决方案中的每个标杆问题的文本相似度;确定文本相似度的最大值;将所述最大值作为该电子终端问题与该解决方案的相似度。
汇总电子终端问题与每个解决方案的相似度,根据解决方案的数量SIDNUM,将电子终端问题与每个解决方案的相似度{Sim(UQ,SID1),Sim(UQ,SID2)…Sim(UQ,SIDSIDNUM)},按照相似度从大到小的顺序,将对应的解决方案提供给用户。
图6B为本发明实施例提供的一种电子终端问题分类装置结构示意图,所述装置包括:
方案数据库61,用于保存用户提问的每个电子终端问题及其对应的解决方案;聚类模块62,用于对方案数据库中的电子终端问题进行聚类,将同一解决方案解决的电子终端问题聚合到一个类别中;
提取模块63,用于在每个类别中,确定至少一个标杆问题;
所述方案数据库61,还用于根据提取模块在每个类别中确定的至少一个标杆问题,建立每个解决方案和至少一个标杆问题的对应关系,该对应关系用于向用户提供解决方案。
所述提取模块63,具体用于在每个类别中,根据电子终端问题间的文本相似度,确定每个类别中的至少一个标杆问题。
所述提取模块63,具体用于确定每两个电子终端问题间的文本相似度;判断该文本相似度是否大于设定的阈值;当该文本相似度大于设定的阈值时,提取该两个电子终端问题作为该类别的标杆问题。
所述提取模块63,具体用于根据电子终端问题间的文本相似度,及设定时间长度内每个电子终端问题被用户提问的频次,提取每个类别中的至少一个标杆问题。
所述提取模块63,具体用于在每个类别中,确定每两个电子终端问题间的文本相似度;识别文本相似度阈值大于设定阈值的每两个电子终端问题;根据设定时间长度内该识别出的电子终端问题被用户提问的频次,提取至少一个标杆问题。
具体的,该装置位于服务器中。
图7为本发明实施例提供的一种基于电子终端问题分类装置的解决方案提供系统结构示意图,所述系统包括:
接收模块71,用于接收用户提问的电子终端问题;
方案数据库72,用于存储每个解决方案和至少一个标杆问题的对应关系;
方案匹配模块73,用于判断所述电子终端是否命中线下统计出的方案数据库中各标杆问题中的一个或多个,确定所述电子终端问题与所述命中的各标杆问题所对应的一个或多个解决方案的相似度,汇总所述电子终端问题与所述每个解决方案的相似度,确定该电子终端问题对应的解决方案;
提供模块74,用于将该解决方案提供给用户。
所述方案匹配模块73,具体用于针对每个解决方案,统计该用户提问的电子终端问题与该解决方案中的每个标杆问题的文本相似度;确定文本相似度的最大值;将所述最大值作为该电子终端问题与该解决方案的相似度。
本发明实施例提供了一种电子终端问题分类及解决方案提供方法及装置,该方法对方案数据库中保存的用户提问的电子终端问题进行聚类,将同一解决方案解决的电子终端问题聚合到一个类别中,在每个类别中确定标杆问题,建立解决方案和标杆问题的对应关系,从而向用户提供解决方案。由于在本发明实施例中对方案数据库中的电子终端问题进行了聚类,并在每个类别中确定了标杆问题,从而建立了每个解决方案和标杆问题的对应关系,在进行搜索时根据该对应关系即可确定电子终端问题的解决方案,提高了解决方案提供的效率,满足了向用户提供解决方案的实时性需求。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的电子终端问题分类装置及解决方案提供装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种电子终端问题分类方法,其特征在于,该方法包括:
对方案数据库中保存的用户提问的每个电子终端问题进行聚类,将同一解决方案解决的电子终端问题聚合到一个类别中;
在每个类别中,确定至少一个标杆问题;
建立方案数据库中每个解决方案和至少一个标杆问题的对应关系,该对应关系用于向用户提供解决方案。
2.如权利要求1所述的方法,其特征在于,所述在每个类别中,确定至少一个标杆问题包括:
在每个类别中,根据电子终端问题间的文本相似度,确定每个类别中的至少一个标杆问题。
3.如权利要求1-2任一项所述的方法,其特征在于,所述根据电子终端问题间的文本相似度,确定每个类别中的至少一个标杆问题包括:
确定每两个电子终端问题间的文本相似度;
判断该文本相似度是否大于设定的阈值;
当该文本相似度大于设定的阈值时,提取该两个电子终端问题作为该类别的标杆问题。
4.如权利要求1-3任一项所述的方法,其特征在于,所述在每个类别中,确定至少一个标杆问题包括:
根据电子终端问题间的文本相似度,及设定时间长度内每个电子终端问题被用户提问的频次,提取每个类别中的至少一个标杆问题。
5.如权利要求1-4任一项所述的方法,其特征在于,所述提取每个类别中的至少一个标杆问题包括:
在每个类别中,确定每两个电子终端问题间的文本相似度;
识别文本相似度阈值大于设定阈值的每两个电子终端问题;
根据设定时间长度内该识别出的电子终端问题被用户提问的频次,提取至少一个标杆问题。
6.一种基于电子终端问题分类的解决方案提供方法,其特征在于,所述方法包括:
接收用户提问的电子终端问题;
判断所述电子终端问题是否能命中线下统计出的方案数据库各个标杆问题中的一个或多个,确定所述电子终端问题与所述命中的各标杆问题所对应的一个或多个解决方案的相似度;
汇总所述电子终端问题与所述每个解决方案的相似度,确定该电子终端问题对应的解决方案,并将该解决方案提供给用户。
7.如权利要求6所述的方法,其特征在于,所述确定每个电子终端问题与命中的各标杆问题对应的一个或多个解决方案的相似度包括:
针对每个解决方案,统计该用户提问的电子终端问题与该解决方案中的每个标杆问题的文本相似度;
确定文本相似度的最大值;
将所述最大值作为该电子终端问题与该解决方案的相似度。
8.一种电子终端问题分类装置,其特征在于,所述装置包括:
方案数据库,用于保存用户提问的每个电子终端问题及其对应的解决方案;
聚类模块,用于对方案数据库中的电子终端问题进行聚类,将同一解决方案解决的电子终端问题聚合到一个类别中;
提取模块,用于在每个类别中,确定至少一个标杆问题;
所述方案数据库,还用于根据提取模块在每个类别中确定的至少一个标杆问题,建立每个解决方案和至少一个标杆问题的对应关系,该对应关系用于向用户提供解决方案。
9.如权利要求8所述的装置,其特征在于,所述提取模块,具体用于在每个类别中,根据电子终端问题间的文本相似度,确定每个类别中的至少一个标杆问题。
10.一种基于电子终端问题分类装置的解决方案提供系统,其特征在于,所述系统包括:
接收模块,用于接收用户提问的电子终端问题;
方案数据库,用于存储每个解决方案和至少一个标杆问题的对应关系;
方案匹配模块,用于判断所述电子终端是否命中线下统计出的方案数据库中各标杆问题中的一个或多个,确定所述电子终端问题与所述命中的各标杆问题所对应的一个或多个解决方案的相似度,汇总所述电子终端问题与所述每个解决方案的相似度,确定该电子终端问题对应的解决方案;
提供模块,用于将该解决方案提供给用户。
CN201410289699.8A 2014-06-24 2014-06-24 一种电子终端问题分类及解决方案提供方法、系统及装置 Pending CN104036015A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410289699.8A CN104036015A (zh) 2014-06-24 2014-06-24 一种电子终端问题分类及解决方案提供方法、系统及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410289699.8A CN104036015A (zh) 2014-06-24 2014-06-24 一种电子终端问题分类及解决方案提供方法、系统及装置

Publications (1)

Publication Number Publication Date
CN104036015A true CN104036015A (zh) 2014-09-10

Family

ID=51466785

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410289699.8A Pending CN104036015A (zh) 2014-06-24 2014-06-24 一种电子终端问题分类及解决方案提供方法、系统及装置

Country Status (1)

Country Link
CN (1) CN104036015A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107688641A (zh) * 2017-08-28 2018-02-13 江西博瑞彤芸科技有限公司 一种提问管理方法及系统
WO2019223058A1 (zh) * 2018-05-22 2019-11-28 平安科技(深圳)有限公司 提高智能客服应答率的方法、设备、存储介质及装置
CN111176871A (zh) * 2019-08-01 2020-05-19 腾讯科技(深圳)有限公司 目标应用的处理方法和装置、存储介质及电子装置
CN113297025A (zh) * 2021-05-18 2021-08-24 维沃移动通信有限公司 故障提醒方法、装置及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005346223A (ja) * 2004-06-01 2005-12-15 Nippon Telegr & Teleph Corp <Ntt> 文書クラスタリング方法、文書クラスタリング装置、文書クラスタリングプログラムならびにそのプログラムを記録した記録媒体
CN1928864A (zh) * 2006-09-22 2007-03-14 浙江大学 一种基于问答库的中文自然语言问答方法
CN101630312A (zh) * 2009-08-19 2010-01-20 腾讯科技(深圳)有限公司 一种用于问答平台中问句的聚类方法及系统
CN103810218A (zh) * 2012-11-14 2014-05-21 北京百度网讯科技有限公司 一种基于问题簇的自动问答方法和装置
CN103853842A (zh) * 2014-03-20 2014-06-11 百度在线网络技术(北京)有限公司 一种自动问答方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005346223A (ja) * 2004-06-01 2005-12-15 Nippon Telegr & Teleph Corp <Ntt> 文書クラスタリング方法、文書クラスタリング装置、文書クラスタリングプログラムならびにそのプログラムを記録した記録媒体
CN1928864A (zh) * 2006-09-22 2007-03-14 浙江大学 一种基于问答库的中文自然语言问答方法
CN101630312A (zh) * 2009-08-19 2010-01-20 腾讯科技(深圳)有限公司 一种用于问答平台中问句的聚类方法及系统
CN103810218A (zh) * 2012-11-14 2014-05-21 北京百度网讯科技有限公司 一种基于问题簇的自动问答方法和装置
CN103853842A (zh) * 2014-03-20 2014-06-11 百度在线网络技术(北京)有限公司 一种自动问答方法和系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107688641A (zh) * 2017-08-28 2018-02-13 江西博瑞彤芸科技有限公司 一种提问管理方法及系统
WO2019223058A1 (zh) * 2018-05-22 2019-11-28 平安科技(深圳)有限公司 提高智能客服应答率的方法、设备、存储介质及装置
CN111176871A (zh) * 2019-08-01 2020-05-19 腾讯科技(深圳)有限公司 目标应用的处理方法和装置、存储介质及电子装置
CN111176871B (zh) * 2019-08-01 2022-02-08 腾讯科技(深圳)有限公司 目标应用的处理方法和装置、存储介质及电子装置
CN113297025A (zh) * 2021-05-18 2021-08-24 维沃移动通信有限公司 故障提醒方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN104750754A (zh) 网站所属行业的分类方法和服务器
EP2930627A1 (en) Interactive searching and recommending method and apparatus
CN107491536B (zh) 一种试题校验方法、试题校验装置及电子设备
CN108319376B (zh) 一种优化商业词推广的输入联想推荐方法及装置
CN105404699A (zh) 一种搜索财经文章的方法、装置及服务器
CN103544267A (zh) 一种基于搜索建议词进行搜索的方法以及装置
CN103207899A (zh) 文本文件推荐方法及系统
CN104036009A (zh) 一种搜索匹配图片的方法、图片搜索方法及装置
CN103455758A (zh) 恶意网站的识别方法及装置
CN103559313B (zh) 搜索方法及装置
CN104036015A (zh) 一种电子终端问题分类及解决方案提供方法、系统及装置
CN104462547A (zh) 一种可配置的网页数据采集的方法及系统
CN106021418A (zh) 新闻事件的聚类方法及装置
CN103136302A (zh) 试题重复输出的方法和装置
CN105224614A (zh) 应用程序分类的展示方法和装置
CN103530336A (zh) 统一资源定位符url中无效参数的识别设备及方法
EP3133504A2 (en) Method and device for knowledge base construction
CN106407316B (zh) 基于主题模型的软件问答推荐方法和装置
CN103942264A (zh) 推送包含新闻信息的网页的方法和装置
CN106445907A (zh) 一种领域词典的生成方法及装置
CN108664492B (zh) 一种向用户推送内容的方法、装置、电子设备和存储介质
CN103530337A (zh) 识别统一资源定位符url中无效参数的设备及方法
CN109815337A (zh) 确定文章类别的方法及装置
CN102902792B (zh) 列表页识别系统及方法
CN112948429B (zh) 一种数据报送方法、装置和设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: BEIJING QILI SOFTWARE TECHNOLOGY CO., LTD.

Free format text: FORMER OWNER: BEIJING QIHU TECHNOLOGY CO., LTD.

Effective date: 20150702

Free format text: FORMER OWNER: QIZHI SOFTWARE (BEIJING) CO., LTD.

Effective date: 20150702

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20150702

Address after: 100028 Beijing city Chaoyang District P.R.China 16 Building 2 layer 1-6 layer 16-1 room 212

Applicant after: BEIJING QILI SOFTWARE TECHNOLOGY CO., LTD.

Address before: 100088 Beijing city Xicheng District xinjiekouwai Street 28, block D room 112 (Desheng Park)

Applicant before: Beijing Qihu Technology Co., Ltd.

Applicant before: Qizhi Software (Beijing) Co., Ltd.

RJ01 Rejection of invention patent application after publication

Application publication date: 20140910

RJ01 Rejection of invention patent application after publication