CN108509482A - 问题分类方法、装置、计算机设备和存储介质 - Google Patents

问题分类方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN108509482A
CN108509482A CN201810064859.7A CN201810064859A CN108509482A CN 108509482 A CN108509482 A CN 108509482A CN 201810064859 A CN201810064859 A CN 201810064859A CN 108509482 A CN108509482 A CN 108509482A
Authority
CN
China
Prior art keywords
words
bag
target
keyword
default
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810064859.7A
Other languages
English (en)
Other versions
CN108509482B (zh
Inventor
康平陆
杨新宇
陈钦明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Asimov Technology Co Ltd
Original Assignee
Shenzhen Asimov Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Asimov Technology Co Ltd filed Critical Shenzhen Asimov Technology Co Ltd
Priority to CN201810064859.7A priority Critical patent/CN108509482B/zh
Publication of CN108509482A publication Critical patent/CN108509482A/zh
Application granted granted Critical
Publication of CN108509482B publication Critical patent/CN108509482B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种问题分类方法、系统、计算机设备和存储介质。所述方法包括:获取目标问题,对目标问题进行拆分处理,得到多个目标分词;将其中一个或多个目标分词确定为目标关键词;获取预设的多个问题类别以及每个问题类别对应的多个词袋,词袋包括多个预设关键词;将目标关键词与多个词袋中的预设关键词进行匹配;当目标问题包含了一个词袋时,根据相匹配的词袋对应的问题类别对目标问题进行分类;当目标问题包含了多个词袋时,根据相匹配的多个词袋包含预设关键词的数量和/或权重确定相匹配的多个词袋的优先级,按照优先级对目标问题进行分类。采用本方法能够提高问题分类准确性。

Description

问题分类方法、装置、计算机设备和存储介质
技术领域
本申请涉及信息处理技术领域,特别是涉及一种问题分类方法、装置、计算机设备和存储介质。
背景技术
通常地,利用传统的搜索引擎,可以从互联网上浏览和检索到我们所需要的信息,为我们的生活带来很大的便利。但是,由于它们查询的基础是关键词,并非我们常用的自然语言,搜索引擎仅仅缩小了用户的查找范围,却很少能直接给出用户想要的答案,用户必须自己从海量相关信息中寻找答案。随着信息处理技术不断发展,自动问答系统应运而生。自动问答系统是通过理解用户以自然语言方式提出的问题,经过信息检索后,返回给用户一个准确、简洁的答案的系统。自动问答系统主要分为三个模块:问题分析模块,信息检索模块和答案抽取模块。其中,问题分析模块中最主要的任务就是问题分类,问题分类对答案抽取的具体策略起到决定性作用。传统的分类方法主要是根据疑问词(如“when”“what”或“why”类型等)进行问题分类。然而实际应用中,用户提出的问题多种多样,例如,问题“办理签证需要准备的资料”中并不存在疑问词,由此使得传统的分类方法无法对多种多样的问题进行准确分类。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高问题分类准确性的问题分类方法、装置、计算机设备和存储介质。
一种问题分类方法,所述方法包括:
获取目标问题,对所述目标问题进行拆分处理,得到多个目标分词;
将其中一个或多个目标分词确定为目标关键词;
获取预设的多个问题类别以及每个问题类别对应的多个词袋,所述词袋包括多个预设关键词;
将所述目标关键词与多个词袋中的预设关键词进行匹配;
当所述目标问题包含了一个词袋时,根据相匹配的词袋对应的问题类别对所述目标问题进行分类;
当所述目标问题包含了多个词袋时,根据相匹配的多个词袋包含预设关键词的数量和/或权重确定相匹配的多个词袋的优先级,按照所述优先级对所述目标问题进行分类。
在其中一个实施例,所述目标分词包括停用词或标点符号;将其中一个或多个目标分词确定为目标关键词的步骤,包括:
对多个目标分词进行过滤,删除所述停用词和所述标点符号;
对过滤后的多个目标分词进行同义词替换和/或命名实体替换;
将替换后的多个目标分词作为目标关键词。
在其中一个实施例,在获取预设的多个问题类别以及每个问题类别对应的多个词袋的步骤之前,还包括:
获取问题语料;所述问题语料包括多个问题类别以及每个问题类别对应的多个预设问题;
对多个预设问题进行预处理,得到每个预设问题对应的一个或多个中间关键词;计算每个中间关键词的TF-IDF值,根据所述TF-IDF值对多个中间关键词进行筛选,将筛选得到的多个中间关键词作为预设关键词;
利用每个预设问题对应的一个或多个预设关键词,生成相应预设问题的词袋,将所述词袋与相应的问题类别进行关联。
在其中一个实施例,根据TF-IDF值对多个中间关键词进行筛选,将筛选得到的多个中间关键词作为预设关键词的步骤,包括:
根据所述TF-IDF值对多个中间关键词进行排序;
按照排序对多个中间关键词进行遍历,若当前顺序的中间关键词的TF-IDF值超过预设倍数的下一顺序中间关键词的TF-IDF值,将所述当前顺序的中间关键词与所述下一顺序中间关键词之间的位置作为截取位置;
根据所述截取位置截取排序靠前的多个中间关键词,将截取到的多个中间关键词作为预设关键词。
在其中一个实施例,将所述词袋与相应的问题类别进行关联的步骤,包括:
对多个词袋是否重复进行校验;
当存在多个词袋发生重复时,获取发生重复的多个词袋,在获取到的每个词袋对应的预设问题中筛选一个标识词,将所述标识词添加至相应预设问题的词袋,返回所述对多个词袋是否重复进行校验的步骤;
当不存在多个词袋发生重复时,将多个词袋与相应的问题类别进行关联。
在其中一个实施例,在获取预设的多个问题类别以及每个问题类别对应的多个词袋的步骤之前,还包括:
获取问题语料,所述问题语料包括多个问题类别以及每个问题类别对应的多个预设问题;
对多个预设问题进行预处理,得到每个预设问题对应的预设关键词;
计算每个所述预设关键词的哈希值;
对每个预设问题对应的多个预设关键词的哈希值进行求和,得到相应预设问题对应的哈希值;
将每个预设问题对应的哈希值与相应的问题类别进行关联;
对多个问题类别以及关联的哈希值进行存储。
在其中一个实施例,根据相匹配的多个词袋包含预设关键词的数量和/或权重确定相匹配的多个词袋的优先级,按照所述优先级对所述目标问题进行分类的步骤,包括:
当相匹配的多个词袋包含预设关键词的数量不同时,根据所述预设关键词的数量确定多个词袋的优先级;
当相匹配的多个词袋包含预设关键词的数量相同时,根据所述预设关键词的权重确定多个词袋的优先级;
根据所述优先级最高的词袋对应的问题类别对所述目标问题进行分类。
一种问题分类装置,所述装置包括:
关键词提取模块,用于获取目标问题,对所述目标问题进行拆分处理,得到多个目标分词;将其中一个或多个目标分词确定为目标关键词;
词袋匹配模块,用于获取预设的多个问题类别以及每个问题类别对应的多个词袋,所述词袋包括多个预设关键词;将所述目标关键词与多个词袋中的预设关键词进行匹配;
问题分类模块,用于当所述目标问题包含了一个词袋时,根据相匹配的词袋对应的问题类别对所述目标问题进行分类;当所述目标问题包含了多个词袋时,根据相匹配的多个词袋包含预设关键词的数量和/或权重确定相匹配的多个词袋的优先级,按照所述优先级对所述目标问题进行分类。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项方法的步骤。
上述问题分类方法、装置、计算机设备和存储介质,通过对目标问题进行拆分处理,可以得到目标问题对应的多个目标分词;通过对目标分词进行筛选,可以筛选得到目标问题对应的目标关键词;通过将目标关键词与预设的多个词袋进行匹配,可以根据匹配结果以及预存储的词袋与问题类别的对应关系对目标问题进行分类。由于对目标关键词的词性以及数量均无限制,能够保证从目标问题中可以提取到用于识别问题类别的目标关键词,能够对多种多样的问题进行分类。也正是由于对目标关键词的词性以及数量无限制,可以从多个维度对目标问题进行分类,从而相对传统的仅根据疑问词进行问题分类的方式还可以提高问题分类的准确度。在目标问题包含了多个词袋时,根据词袋包含预设关键词的数量和权重在相匹配的多个词袋中筛选与目标问题匹配度最高的唯一一个词袋,可以将目标问题精准的分为某个词袋对应的问题类别,从而能够进一步提高问题分类的准确度。
附图说明
图1为一个实施例中问题分类方法的应用场景图;
图2为一个实施例中问题分类方法的流程示意图;
图3为一个实施例中多个中间关键词的IF-IDF值的变化规律示意图;
图4为一个实施例中问题分类装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的问题分类方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。其中,终端102可以是个人计算机、笔记本电脑、智能手机、平板电脑或便携式可穿戴设备中的至少一种,但并不局限于此。服务器104可以是独立的物理服务器,也可以是多个物理服务器组成的服务器集群。
当用户需要进行信息检索时,可以在终端102录入目标问题。终端102利用用户输入的目标问题生成信息检索请求,将信息检索请求发送至服务器104。服务器104预先存储了多个问题类别以及每个问题类别对应的多个词袋。每个词袋包括多个预设关键词。服务器104将目标关键词与多个词袋中的预设关键词进行匹配,判断目标问题是否包含了一个或多个词袋。当目标问题包含了一个词袋时,服务器104根据该词袋对应的问题类别对目标问题进行分类。当目标问题包含了多个词袋时,根据相匹配的多个词袋包含预设关键词的数量和/或包含预设关键词的权重确定多个词袋的匹配优先级,按照匹配优先级将目标关键词与每个词袋对应的多个预设关键词进行重新匹配,根据重新匹配的结果对目标问题进行分类。服务器104根据目标问题的分类结果进行答案检索,将检索到的目标答案返回至终端102。终端102对目标答案进行展示。上述整个信息检索过程,通过将目标关键词与预存储的多个预设关键词进行匹配来对目标问题进行分类,目标关键词的词性及数据均无限制,使得可以从多个维度对目标问题分类,从而可以提高问题分类的准确度。
在一个实施例中,如图2所示,提供了一种问题分类方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤202,获取目标问题,对目标问题进行拆分处理,得到多个目标分词。
当用户需要进行信息检索时,可以在终端录入目标问题。目标问题可以是陈述句、疑问句或祈使句等,例如,目标问题A可以是“办理签证需要准备的资料”,目标问题B可以是“我在国外可以查卡内余额吗?”,目标问题C可以是“我没有带任何行李,就不用过安检了吧!”等。目标问题可以是中文问题,也可以是预设种类语言的外文问题,如英文问题等。当目标问题为中文问题时,目标问题可以采用简体字,也可以采用繁体字。
终端利用用户输入的目标问题生成信息检索请求,将信息检索请求发送至服务器。服务器按照预设规则对目标问题进行预处理。具体的,服务器对目标问题中的多个词汇和标点符号进行词性标注,根据标注结果对目标问题进行拆分,将目标问题拆分为多个目标分词。目标分词可以是词汇、汉字或标点符号中的一种,例如,在上述举例中,目标问题“我在国外可以查卡内余额吗?”拆分后可以得到多个目标分词:“我”、“在”、“国外”、“可以”、“查”、“卡内”、“余额”、“吗”和“?”。
步骤204,将其中一个或多个目标分词确定为目标关键词。
服务器根据每个目标分词分别对于问题分类的作用,从多个目标分词中筛选一个或多个作为目标关键词。一个目标问题具有至少一个对应的目标关键词,且该目标关键词可以是疑问词,也可以是除疑问词之外的其他词汇。需要说明的是,服务器对目标关键词的词性及数量均无限制。例如,上述举例中目标关键词可以是“国外”、“查”、“卡内”和“余额”。
在一个实施例中,目标分词包括停用词或标点符号;将其中一个或多个目标分词确定为目标关键词的步骤,包括:对多个目标分词进行过滤,删除停用词和标点符号;对过滤后的多个目标分词进行同义词替换和/或命名实体替换;将替换后的多个目标分词作为目标关键词。
服务器上部署了数据库,并在数据库中预先存储了停用词表。停用词表记录了多个停用词。停用词是指对于问题分类作用较小的词汇或汉字,如“我”、“啊”、“的”、“就”等。服务器获取停用词表,利用停用词表在拆分得到的多个目标分词中筛选停用词和标点符号,将筛选出的停用词和标点符号删除。例如,在上述举例中,“我”、“在”、“可以”和“吗”可以作为停用词删除,“?”可以作为标点符号删除,由此可以将“国外”、“查”、“卡内”和“余额”作为目标问题的目标关键词。对停用词和标点符号进行过滤,即可以节省服务器的存储空间,也可以提高服务器根据目标关键词对目标问题进行分类的效率和准确率。
服务器预先存储了同义词表。同义词表记录了多个标准词以及每个标准词对应的同义词。同义词不仅包括与标准词采用相同字体和相同语言的近义词或等义词,还可以包括与标准词采用不同字体或不同语言的近义词或等义词,如目标分词“打票”、“领票”、“换票”、“換嘌”和“change ticket”等均可以替换为同义词表中的标准词“取票”。同义词替换可以对同一个概念的多种表达方式进行统一,使得目标问题的关键概念更未凸显,降低服务器根据目标关键词对目标问题进行分类的难度,从而可以提高问题分类的效率和准确率。
服务器预先存储了命名实体表。命名实体表记录了多个命名实体以及每个命名实体对应的实体词。命名实体包括人名、机构名或地名等,还可以包括其他以名称为标识的实体,如数字、日期、货币或地址等。服务器识别多个目标分词中的命名实体,将识别出的命名实体替换为对应的实体词,例如,可以将目标分词中所有的人名替换为“人物”,将目标分词中所有的地名替换为“地点”。命名实体的替换可以降低问题分类的粒度,从而可以提高问题分类的效率。
步骤206,获取预设的多个问题类别以及每个问题类别对应的多个词袋,词袋包括多个预设关键词。
服务器在数据库中预先存储了多个问题类别以及每个问题类别对应的多个词袋。多个问题类别以及对应的词袋可以是服务器对问题语料进行处理得到的。问题语料包括多个问题类别以及每个问题类别对应的多个预设问题。问题语料可以是服务器通过网络爬取并进行分类得到的。在另一个实施例中,相关人员对获取到预设问题进行类别,从而问题语料可以是相关人员通过终端预先发送至服务器。
服务器获取问题语料,对问题语料中多个预设问题进行预处理,得到每个预设问题对应的一个或多个中间关键词。服务器计算每个中间关键词的TF-IDF值,根据TF-IDF值对多个中间关键词进行筛选,将筛选得到的多个中间关键词作为预设关键词。服务器利用每个预设问题对应的一个或多个预设关键词,生成相应预设问题的词袋,将词袋与相应的问题类别进行关联。每个预设问题对应一个词袋。例如,预设问题D“我在国外怎么查卡内余额?”对应的词袋d可以是““国外”、“查”、“余额””,关联的问题类别可以是“国外事务”。
步骤208,将目标关键词与多个词袋中的预设关键词进行匹配。
目标问题对应的一个或多个目标关键词可以构成目标问题对应的词袋(以下简称“目标词袋”)。服务器将目标关键词与多个词袋中的预设关键词进行匹配。服务器根据匹配结果可以判断目标词袋是否包含了一个或多个预设的词袋。容易理解,若一个词袋中的全部预设关键词分别具有相对应的目标关键词,则表示目标关键词与该词袋中的预设关键词匹配成功,即目标词袋包含了该词袋。例如,在上述举例中,目标问题B对应的目标词袋““国外”、“查”、“卡内”、“余额””包含了预设问题D对应的词袋d。
步骤210,当目标问题包含了一个词袋时,根据相匹配的词袋对应的问题类别对目标问题进行分类。
步骤212,当目标问题包含了多个词袋时,根据相匹配的多个词袋包含预设关键词的数量和/或权重确定相匹配的多个词袋的优先级,按照优先级对目标问题进行分类。
将目标关键词与多个词袋中的预设关键词进行匹配的结果有多种情况。其中一种情况是目标问题包含且仅包含了一个词袋,服务器直接根据相匹配的该词袋对应的问题类别对目标问题进行分类即可,如目标问题B属于问题类别“国外事务”。
另一种情况是目标问题未包含任意一个词袋。虽然在目标问题中提取目标关键词,仅将目标关键词与词袋进行匹配可以提高问题分类效率,但也使得匹配条件变得苛刻,可能导致按照上述方式无法对目标问题进行成功分类。本实施例当目标问题未包含任意一个词袋时,服务器将目标问题拆分得到的全部目标词汇与多个词袋中的预设关键词进行重新匹配,根据重新匹配的结果对目标问题进行分类。在另一个实施例中,当全部目标词汇均用作预设关键词进行问题分类,仍不存在相匹配的词袋时,服务器利用目标问题生成分类失败的提示信息,将提示信息发送至指定设备,使相关人员根据提示信息对目标问题进行人工分类。
再一种情况是目标问题包含了多个词袋。本实施例当目标问题包含了多个词袋时,服务器根据相匹配的多个词袋包含预设关键词的数量和/权重确定多个词袋的匹配优先级,按照匹配优先级将目标关键词与相应词袋对应的多个预设关键词进行重新匹配,根据重新匹配的结果对目标问题进行分类。根据词袋包含预设关键词的数量和权重在相匹配的多个词袋中可以筛选与目标问题匹配度最高的唯一一个词袋,从而可以将目标问题精准的分为该词袋对应的问题类别。
服务器根据信息检索请求对目标问题进行检索,得到多个问答对。问答对包括候选问题以及对应的候选答案。服务器按照上述方式识别多个候选问题的问题类别,将目标问题的问题类别和候选问题的问题类别进行匹配,根据匹配结果对多个候选问题进行过滤。服务器将过滤得到候选问题对应的候选答案作为目标答案返回至终端。终端对目标答案进行展示。
本实施例中,通过对目标问题进行拆分处理,可以得到目标问题对应的多个目标分词;通过对目标分词进行筛选,可以筛选得到目标问题对应的目标关键词;通过将目标关键词与预设的多个词袋进行匹配,可以根据匹配结果以及预存储的词袋与问题类别的对应关系对目标问题进行分类。由于对目标关键词的词性以及数量均无限制,能够保证从目标问题中可以提取到用于识别问题类别的目标关键词,能够对多种多样的问题进行分类。也正是由于对目标关键词的词性以及数量无限制,可以从多个维度对目标问题进行分类,从而相对传统的仅根据疑问词进行问题分类的方式还可以提高问题分类的准确度。在目标问题包含了多个词袋时,根据词袋包含预设关键词的数量和权重在相匹配的多个词袋中筛选与目标问题匹配度最高的唯一一个词袋,可以将目标问题精准的分为某个词袋对应的问题类别,从而能够进一步提高问题分类的准确度。
在一个实施例中,在获取预设的多个问题类别以及每个问题类别对应的多个词袋的步骤之前,还包括:获取问题语料;问题语料包括多个问题类别以及每个问题类别对应的多个预设问题;对多个预设问题进行预处理,得到每个预设问题对应的一个或多个中间关键词;计算每个中间关键词的TF-IDF值,根据TF-IDF值对多个中间关键词进行筛选,将筛选得到的多个中间关键词作为预设关键词;利用每个预设问题对应的一个或多个预设关键词,生成相应预设问题的词袋,将词袋与相应的问题类别进行关联。
服务器获取问答预料,按照上述方式对问题语料中的多个预设问题进行预处理,得到多个中间关键词。具体的,服务器对预设问题进行拆分处理,得到多个中间分词,对多个中间分词进行过滤,删除中间分词中的停用词和标点符号,对过滤后的多个中间分词进行同义词替换和/或命名实体替换;将替换后的多个中间分词作为中间关键词。
服务器将其中一个或多个中间关键词作为预设关键词。为了提高问题分类效率,并非预处理得到的每个中间关键词均作为预设关键词,而是根据中间关键词的TF-IDF值(term frequency–inverse document frequency,词频-逆向文件频率)进行筛选。具体的,服务器通过统计每个中间关键词在所有中间关键词中出现的次数,计算相应中间关键词的TF值(term frequency,词频);通过统计问题预料中预设问题的总数量与包含某个中间关键词的预设问题的数量的比值,计算相应中间关键词的IDF值(inverse documentfrequency,逆向文件频率)。
服务器根据每个中间关键词的TF值和IDF值计算相应中间关键词的TF-IDF值。中间关键词的TF-IDF值可以反映中间关键词的类别区分能力。服务器根据TF-IDF值对中间关键词进行筛选,筛选得到预设数量TF-IDF值高的中间关键词作为预设关键词。服务器利用每个预设问题对应的一个或多个预设关键词,生成相应预设问题的词袋,并将词袋与相应的问题类别进行关联。
本实施例中,对问题预料进行预处理,得到多个中间关键词,但并未预处理得到的每个中间关键词均作为预设关键词,而是根据中间关键词的TF-IDF值进行筛选,可以提高问题分类效率。
在一个实施例中,根据TF-IDF值对多个中间关键词进行筛选,将筛选得到的多个中间关键词作为预设关键词的步骤,包括:根据TF-IDF值对多个中间关键词进行排序;按照排序对多个中间关键词进行遍历,若当前顺序的中间关键词的TF-IDF值超过预设倍数的下一顺序中间关键词的TF-IDF值,将当前顺序的中间关键词与下一顺序中间关键词之间的位置作为截取位置;根据截取位置截取排序靠前的多个中间关键词,将截取到的多个中间关键词作为预设关键词。
服务器根据TF-IDF值对多个中间关键词进行排序,形成一个问题类别对应的关键词词典。容易理解,不用应用场景可以有不同的关键词词典,如“出入境”对应关键词词典可以是[“国航”“的士”“购票”“国外”、“签证”、“安检”……“余额”]。为了描述方便,按照排序对多个中间关键词进行编号,并通过将编号作为相应中间关键词的TF-IDF值的下标等方式对中间关键词的TF-IDF值进行区分,例如,在上述举例中,第一顺序的中间关键词“国航”对应的TF-IDF值可以标记为TF-IDF1;第二顺序的中间关键词“的士”对应的TF-IDF值可以标记为TF-IDF2,以此类推。
服务器按照TF-IDF值由高至低的顺序对关键词词典中的多个中间关键词进行遍历,并在遍历过程中对当前顺序的中间关键词的TF-IDFi是否超过预设倍数K的下一顺序中间关键词的TF-IDFi+1,即验证TF-IDFi>K*TF-IDFi+1(0<i<m)是否成立。其中,m为关键词词典包含中间关键词的总数量,K为大于1的常熟因子。若当前顺序的中间关键词的TF-IDFi≤K*TF-IDFi+1,则服务器按照上述方式继续对下一顺序的中间关键词的TF-IDF值是否满足上述条件进行验证,直至一个中间关键词的TF-IDF值满足上述条件。
当关键词词典包含中间关键词的数量够多时,可以预期多个中间关键词的TF-IDF值符合如图3所示的变化规律。若一个中间关键词的TF-IDF值满足上述条件,表示该中间关键词的TF-IDF值与后一个中间关键词的TF-IDF值落差较大。服务器将满足上述条件的中间关键词与下一顺序中间关键词之间的位置作为截取位置,根据截取位置截取排序靠前的多个中间关键词,即截取TF-IDF值高的多个中间关键词,将截取到的多个中间关键词作为预设关键词。
在另一个实施例中,为了限制预设关键词的数量以提高问题分类时间,服务器预设了截取中间关键词的数量最大值n(n<m)。当关键词词典中第n个中间关键词的TF-IDFn值仍然不满足TF-IDFn>K*TF-IDFn+1,则服务器截取前面n个中间关键词作为预设关键词。也就是说,服务器最多截取n个中间关键词作为预设关键词。容易理解,可以根据实际需求自由设置n值和K值。
本实施例中,并未预处理得到的每个中间关键词均作为预设关键词,而是根据中间关键词的TF-IDF值进行筛选,可以提高问题分类效率。通过对多个中间关键词进行遍历,识别一个中间关键词的TF-IDF值超过预设倍数的下一顺序中间关键词的TF-IDF值,来确定对中间关键词的截取位置;换言之,可以确定在中间关键词中提取预设关键词的数量的阈值,可以适应不同的问题语料自动调整该阈值,从而可以提高问题分类的准确性。
在一个实施例中,将词袋与相应的问题类别进行关联的步骤,包括:对多个词袋是否重复进行校验;当存在多个词袋发生重复时,获取发生重复的多个词袋,在获取到的每个词袋对应的预设问题中筛选一个标识词,将标识词添加至相应预设问题的词袋,返回对多个词袋是否重复进行校验的步骤;当不存在多个词袋发生重复时,将多个词袋与相应的问题类别进行关联。
由于预设关键词仅是在预设问题中提取的部分词汇,使得可能存在多个不同的预设问题对应的预设关键词相同的情况,即存在多个不同的预设问题对应的词袋发生重复的问题。例如,假设预设问题E“我没有带任何行李,可不可以不用过安检?”对应词袋e为“行李”;预设问题F“行李在哪里寄存?”对应词袋f也为“行李”,则存在词袋冲突的问题。
为了解决上述词袋冲突的问题,服务器在得到每个预设问题对应的词袋后,并不直接将词袋与对应的问题类别进行关联,而是对多个词袋是否重复进行校验,只有检验通过的词袋才可与对应的问题类别进行关联。当存在多个词袋发生重复时,服务器获取发生重复的多个词袋,针对每个词袋添加一个标识词,以将发生重复的多个词袋进行区分。添加到不同词袋的标识词可以是服务器从相应预设问题对应的多个未被选作预设关键词的中间分词中筛选得到的。容易理解,当预设问题对应的中间分词包括未被选作预设关键词的中间关键词时,优先选择中间关键词作为相应预设问题的标识词。
在对重复的词袋添加标识词之后,对发生重复的多个词袋是否仍存在重复进行重新校验。若重新校验的结果为仍存在多个词袋发生重复,服务器按照上述方式给发生重复的多个词袋分别再添加一个标识词。若一个预设问题对应的所有中间分词均已选作预设关键词或标识词,即不存在中间分词可以充当标识词,则服务器利用发生重复且不存在新的标识词的词袋生成词袋冲突日志,将词袋冲突日志发送至指定设备,使相关人员可以通过根据词袋冲突日志对依然发生冲突的词袋进行区别标记。当不存在多个词袋发生重复时,服务器将多个词袋与相应的问题类别进行关联。
本实施例中,在得到每个预设问题对应的词袋后,并不直接将词袋与对应的问题类别进行关联,而是对多个词袋是否重复进行校验,只有检验通过的词袋才可与对应的问题类别进行关联;发生重复的多个词袋,针对每个词袋添加一个标识词,可以将发生重复的多个词袋进行区分,从而可以避免因为词袋冲突对问题分类造成的影响,进而可以提高问题分类的准确性。
在一个实施例中,在获取预设的多个问题类别以及每个问题类别对应的多个词袋的步骤之前,还包括:获取问题语料,问题语料包括多个问题类别以及每个问题类别对应的多个预设问题;对多个预设问题进行预处理,得到每个预设问题对应的预设关键词;计算每个预设关键词的哈希值;对每个预设问题对应的多个预设关键词的哈希值进行求和,得到相应预设问题对应的哈希值;将每个预设问题对应的哈希值与相应的问题类别进行关联;对多个问题类别以及关联的哈希值进行存储。
海量预设关键词会占据大量服务器资源。容易理解,不同词袋中可能包含一个或多个相同的预设关键词。例如,词袋g包括预设关键字“直达”“地铁”和“备选路线”;词袋h包括预设关键字“备选路线”、“公交”、“换乘”、“地铁”。则词袋g与词袋h存在重复的预设关键字“地铁”“备选路线”。大量预设关键词的重复会进一步加剧对服务器资源的占用。
为了节省服务器存储空间,服务器计算每个预设关键词的哈希值,将每个词袋包含的多个预设关键词分别对应的哈希值进行关联。服务器对相关量的多个哈希值进行累加求和,将计算得到的哈希值的哈作为相应预设问题的哈希值,将预设问题的哈希值与对应的问题类别进行关联。服务器对多个问题类别以及关联的哈希值进行存储。哈希值可以占用较少的存储空间,从而可以减少服务器资源的占用。
本实施例中,对于海量的预设关键词,服务器并非直接采用字词的方式进行存储,而是计算每个预设关键词的哈希值,将哈希值与相应的预设关键词进行关联,由于哈希值可以占用较少的存储空间,从而利用哈希值的方式对海量预设关键词进行存储可以减少服务器资源的占用。
在一个实施例中,根据相匹配的多个词袋包含预设关键词的数量和/或权重确定相匹配的多个词袋的优先级,按照优先级对目标问题进行分类的步骤,包括:当相匹配的多个词袋包含预设关键词的数量不同时,根据预设关键词的数量确定多个词袋的优先级;当相匹配的多个词袋包含预设关键词的数量相同时,根据预设关键词的权重确定多个词袋的优先级;根据优先级最高的词袋对应的问题类别对目标问题进行分类。
当存在多个词袋与目标问题相匹配时,服务器统计相匹配的每个词袋包含预设关键词的数量,根据包含预设关键词的数量最多的词袋对应的问题类别对目标问题进行分类。服务器根据预设关键词在问题预料对应的所有中间分词中出现的频率,对每个预设关键词分配了对应的权重,如上述举例中预设关键词“地铁”对应的权重可以是0.08%。当包含预设关键词的数量最多的词袋有多个时,服务器根据这些词袋中包含的每个预设关键词的词频和权重,确定多个词袋的优先级。例如,计算预设关键词的词频和权重的积值,根据该积值确定多个词袋的优先级。容易理解,积值越大,对应的词袋的优先级越高。服务器根据优先级最高的词袋对应的问题类别对目标问题进行分类。
本实施例中,在目标问题包含了多个词袋时,根据词袋包含预设关键词的数量和权重在相匹配的多个词袋中筛选与目标问题匹配度最高的唯一一个词袋,可以将目标问题精准的分为某个词袋对应的问题类别,从而能够进一步提高问题分类的准确度。
在一个实施例中,该方法还包括:接收用户的信息检索请求,信息检索请求携带了目标问题;获取预设的多个检索路径以及每个检索路径对应的调用顺序;根据调用顺序获取第一顺序的检索路径,利用获取到的检索路径对目标问题进行检索,得到临时问答库;临时问答库包括多个问答对,问答对包括候选问题以及对应的候选答案;识别目标问题的问题类别;识别多个候选问题的问题类别;根据候选问题的问题类别和目标问题的问题类别,对问答对进行过滤;计算过滤得到的多个问答对中每个候选答案与目标问题的相似度;检测是否存在与目标问题的相似度达到阈值的问答对;当不存在与目标问题的相似度达到阈值的问答对时,根据调用顺序获取下一顺序的检索路径,返回利用获取到的检索路径对目标问题进行检索的步骤;当存在与目标问题的相似度达到阈值的问答对时,抽取相似度达到阈值的候选答案作为目标答案,展示目标答案。
当用户需要进行信息检索时,可以通过终端录入目标问题。终端利用目标问题生成信息检索请求,将信息检索请求发送至服务器。服务器按照上述方式对目标问题进行分类。
服务器预先存储了多个检索路径以及每个检索路径对应的调用顺序。检索路径可以包括第三方的检索平台,如百度或搜狗等。检索路径还可以包括预先存储的问答库对应的存储路径。调用顺序是指在多个检索路径进行检索的顺序,可以是串行检索,也可以是并行检索,还可以是串行检索与并行检索的结合。串行检索是指在第一顺序的检索路径进行检索,根据检索结果判断是否需要在第二顺序的检索路径重新检索;如果不需要则在第一顺序的检索路对应的检索结果中抽取目标答案,如果需要则在第二顺序的检索路径重新检索,如此类推。并行检索是指同步在多个检索路径进行检索,在得到的全部检索结果中抽取目标答案。容易理解,并行检索可以提高检索效率。以下将以串行检索为例介绍答案抽取的过程。
服务器根据调用顺序获取第一顺序的检索路径,利用第一顺序的检索路径对目标问题进行检索,得到临时问答库。临时问答库包括多个问答对,问答对包括候选问题以及对应的候选答案。为了提高答案抽取的效率,可以对问答对的数量进行限制,如问答对的最大数量可以是30个。服务器按照上述方式识别多个候选问题的问题类别。根据候选问题的问题类别和目标问题的问题类别,对问答对进行过滤。服务器利用IF-IDF算法或者BM25算法等计算过滤得到的多个问答对中每个候选答案与目标问题的相似度。换句话说,服务器利用候选问题与目标问题的问题类别对检索得到的问答对进行一级过滤,利用候选答案与目标问题的相似度对检索得到的问答对进行二级过滤。
服务器检测是否存在与目标问题的相似度达到阈值的问答对。阈值可以是服务器对多个历史目标答案的满意度反馈进行大数据分析,根据大数据分析结果设定的。阈值也可以是相关人员通过终端等预先配置在服务器的。当存在目标问题的相似度达到阈值的问答对时,抽取相似度达到阈值的候选答案作为目标答案,展示目标答案。在一个实施例中,当相似度达到阈值的候选答案有多个时,服务器抽取相似度最高的候选答案作为目标答案。
当不存在与目标问题的相似度达到阈值的问答对时,服务器根据调用顺序获取下一顺序的检索路径,利用下一顺序的检索路径对目标问题重新检索,得到新的临时问答库,按照上述方式对新的临时问答库中的问答对进行两级过滤,对过滤后的问答对的相似度是否达到阈值进行检测。若仍不存在与目标问题的相似度达到阈值的问答对,则服务器根据调用顺序获取第三顺序的检索路径,按照上述利用第三顺序的检索路径对目标问题重新检索,以此类推。
本实施例中,接收到终端发送的目标问题后,对目标问题进行最新检索,相对传统的在预先存储的问答库中进行检索可以提高问题抽取的准确性;在按照上述方式对目标问题进行准确分类的前提下,利用候选问题与目标问题的问题类别对检索得到的问答对进行一级过滤,可以缩小目标答案的筛选范围,从而可以提高信息检索效率;利用候选答案与目标问题的相似度对检索得到的问答对进行二级过滤,可以逐步筛选出符合用户需求的目标答案;利用预设的多个检索路径对目标问题进行多层级检索,直至能够在检索到的多个候选问题中提取到与目标问题相似度符合条件的目标答案,相对传统的在单一检索路径进行检索,确保检索到符合用户需求的目标答案才进行返回,从而可以进一步提高问题抽取的准确性。
在一个实施例中,该方法还包括:获取多个目标答案的满意度反馈;对满意度反馈进行大数据分析;根据大数据分析结果对阈值和/或多个检索路径的调用顺序进行调整。
服务器在向终端返回目标答案时,还向终端返回满意度调查信息。终端在目标答案的显示页面还显示满意度调查信息。用户在终端浏览目标答案后,可以对满意度调查信息进行反馈。终端将用户输入的满意度反馈返回至服务器。服务器在接收到大量目标问题对应目标答案的满意度反馈后,对大量满意度反馈进行大数据分析。服务器统计多个目标问题的第一满意度平均值,根据第一满意度平均值对用于限定相似度的阈值进行调整,例如,当第一满意度平均值偏低时,可以适当减阈值调高。服务器还统计每个检索路径得到的目标问题的第二满意度平均值,根据第二满意度平均值对多个检索路径的调用顺序进行调整。例如,将第二满意度平均值高的检索路径的调用顺序调前,将第二满意度平均值低的检索路径的调用顺序调后。
本实施例中,根据用户对目标答案的满意度及时调整用于筛选目标答案的相似度阈值以及多条检索路径的调用顺序,可以逐步改善答案收取的准确性。
在一个实施例中,临时问答库还包括每个候选答案对应的评论信息;当存在相似度达到阈值的问答对时,抽取相似度达到阈值的候选答案作为目标答案的步骤,包括:当存在多个相似度达到阈值的问答对时,获取相似度达到阈值的多个候选答案的评论信息,对相应候选答案进行打分;筛选分值最高的候选答案作为目标答案。
临时问答库还包括每个候选答案对应的评论信息,如点赞数、踩数等信息。当存在多个与目标问题的相似度达到阈值的问答对时,服务器根据候选答案对应的评论信息给相应的候选答案打分,将筛选分值最高的候选答案作为目标答案返回至终端。本实施例中,根据候选答案对应的评论信息对多个相似度达到阈值的问答对进行筛选,确保返回的目标答案符合用户需求,可以提高问题抽取的准确性。
在一个实施例中,候选答案包括答案摘要以及对应的完整答案;展示目标答案的步骤,包括:检测答案摘要是否包括省略标识;当答案摘要包括省略标识时,获取答案摘要对应的完整答案,在完整答案中截取预设长度的部分答案,对截取得到的部分答案进行展示。
候选答案包括答案摘要以及对应的完整答案。服务器检测答案摘要是否包括省略标识,如省略号等。若答案摘要包括省略标识,答案摘要的内容存在省略的部分,即内容不够完整,会给用户带来阅读障碍,服务器获取答案摘要对应的完整答案,将完整答案作为目标答案返回至终端。为了节省用户的阅读时间,服务器对超过预设长度的完整答案进行限长处理,例如,在完整答案中,将省略标识后面第一个目标类标点符号的位置作为截取位置。服务器在完整答案中截取上述截取位置之前的部分答案作为目标答案。
本实施例中,当答案摘要的内容存在省略标识,将答案摘要对应的完整答案作为目标答案返回至终端,可以避免因目标答案内容不完整,给用户带来阅读障碍;对超过预设长度的完整答案进行限长处理,可以节省用户的阅读时间。
应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种问题分类装置,包括:关键词提取模块402、词袋匹配模块404和问题分类模块406,其中:
关键词提取模块402,用于获取目标问题,对目标问题进行拆分处理,得到多个目标分词;将其中一个或多个目标分词确定为目标关键词。
词袋匹配模块404,用于获取预设的多个问题类别以及每个问题类别对应的多个词袋,词袋包括多个预设关键词;将目标关键词与多个词袋中的预设关键词进行匹配。
问题分类模块406,用于当目标问题包含了一个词袋时,根据相匹配的词袋对应的问题类别对目标问题进行分类;当目标问题包含了多个词袋时,根据相匹配的多个词袋包含预设关键词的数量和/或权重确定相匹配的多个词袋的优先级,按照优先级对目标问题进行分类。
在一个实施例中,目标分词包括停用词或标点符号;关键词提取模块402还用于对多个目标分词进行过滤,删除停用词和标点符号;对过滤后的多个目标分词进行同义词替换和/或命名实体替换;将替换后的多个目标分词作为目标关键词。
在一个实施例中,问题分类装置还包括词袋生成模块408。词袋生成模块408包括语料预处理模块4082、关键词筛选模块4084和词袋关联模块4086。语料预处理模块4082用于获取问题语料;问题语料包括多个问题类别以及每个问题类别对应的多个预设问题;对多个预设问题进行预处理,得到每个预设问题对应的一个或多个中间关键词;关键词筛选模块4084用于计算每个中间关键词的TF-IDF值,根据TF-IDF值对多个中间关键词进行筛选,将筛选得到的多个中间关键词作为预设关键词;词袋关联模块4086用于利用每个预设问题对应的一个或多个预设关键词,生成相应预设问题的词袋,将词袋与相应的问题类别进行关联。
在一个实施例中,关键词筛选模块4084还用于根据TF-IDF值对多个中间关键词进行排序;按照排序对多个中间关键词进行遍历,若当前顺序的中间关键词的TF-IDF值超过预设倍数的下一顺序中间关键词的TF-IDF值,将当前顺序的中间关键词与下一顺序中间关键词之间的位置作为截取位置;根据截取位置截取排序靠前的多个中间关键词,将截取到的多个中间关键词作为预设关键词。
在一个实施例中,词袋生成模块408还包括重复校验模块4088。重复校验模块4088用于对多个词袋是否重复进行校验;当存在多个词袋发生重复时,获取发生重复的多个词袋,在获取到的每个词袋对应的预设问题中筛选一个标识词,将标识词添加至相应预设问题的词袋,返回对多个词袋是否重复进行校验的步骤;当不存在多个词袋发生重复时,将多个词袋与相应的问题类别进行关联。
在一个实施例中,问题分类装置还包括哈希变换模块410,用于获取问题语料,问题语料包括多个问题类别以及每个问题类别对应的多个预设问题;对多个预设问题进行预处理,得到每个预设问题对应的预设关键词;计算每个预设关键词的哈希值;对每个预设问题对应的多个预设关键词的哈希值进行求和,得到相应预设问题对应的哈希值;将每个预设问题对应的哈希值与相应的问题类别进行关联;对多个问题类别以及关联的哈希值进行存储。
在一个实施例中,问题分类模块406还用于当相匹配的多个词袋包含预设关键词的数量不同时,根据预设关键词的数量确定多个词袋的优先级;当相匹配的多个词袋包含预设关键词的数量相同时,根据预设关键词的权重确定多个词袋的优先级;根据优先级最高的词袋对应的问题类别对目标问题进行分类。
关于问题分类装置的具体限定可以参见上文中对于问题分类方法的限定,在此不再赘述。上述问题分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。本申请提供的问题分类装置可以实现为一种计算机程序的形式,计算机程序可在如图5所示的计算机设备上运行。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储多个问题类别以及每个问题类别对应的多个词袋。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种问题分类方法。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:获取目标问题,对目标问题进行拆分处理,得到多个目标分词;将其中一个或多个目标分词确定为目标关键词;获取预设的多个问题类别以及每个问题类别对应的多个词袋,词袋包括多个预设关键词;将目标关键词与多个词袋中的预设关键词进行匹配;当目标问题包含了一个词袋时,根据相匹配的词袋对应的问题类别对目标问题进行分类;当目标问题包含了多个词袋时,根据相匹配的多个词袋包含预设关键词的数量和/或权重确定相匹配的多个词袋的优先级,按照优先级对目标问题进行分类。
在一个实施例中,目标分词包括停用词或标点符号;处理器执行计算机程序时还实现以下步骤:对多个目标分词进行过滤,删除停用词和标点符号;对过滤后的多个目标分词进行同义词替换和/或命名实体替换;将替换后的多个目标分词作为目标关键词。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取问题语料;问题语料包括多个问题类别以及每个问题类别对应的多个预设问题;对多个预设问题进行预处理,得到每个预设问题对应的一个或多个中间关键词;计算每个中间关键词的TF-IDF值,根据TF-IDF值对多个中间关键词进行筛选,将筛选得到的多个中间关键词作为预设关键词;利用每个预设问题对应的一个或多个预设关键词,生成相应预设问题的词袋,将词袋与相应的问题类别进行关联。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据TF-IDF值对多个中间关键词进行排序;按照排序对多个中间关键词进行遍历,若当前顺序的中间关键词的TF-IDF值超过预设倍数的下一顺序中间关键词的TF-IDF值,将当前顺序的中间关键词与下一顺序中间关键词之间的位置作为截取位置;根据截取位置截取排序靠前的多个中间关键词,将截取到的多个中间关键词作为预设关键词。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:对多个词袋是否重复进行校验;当存在多个词袋发生重复时,获取发生重复的多个词袋,在获取到的每个词袋对应的预设问题中筛选一个标识词,将标识词添加至相应预设问题的词袋,返回对多个词袋是否重复进行校验的步骤;当不存在多个词袋发生重复时,将多个词袋与相应的问题类别进行关联。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取问题语料,问题语料包括多个问题类别以及每个问题类别对应的多个预设问题;对多个预设问题进行预处理,得到每个预设问题对应的预设关键词;计算每个预设关键词的哈希值;对每个预设问题对应的多个预设关键词的哈希值进行求和,得到相应预设问题对应的哈希值;将每个预设问题对应的哈希值与相应的问题类别进行关联;对多个问题类别以及关联的哈希值进行存储。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:当相匹配的多个词袋包含预设关键词的数量不同时,根据预设关键词的数量确定多个词袋的优先级;当相匹配的多个词袋包含预设关键词的数量相同时,根据预设关键词的权重确定多个词袋的优先级;根据优先级最高的词袋对应的问题类别对目标问题进行分类。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取目标问题,对目标问题进行拆分处理,得到多个目标分词;将其中一个或多个目标分词确定为目标关键词;获取预设的多个问题类别以及每个问题类别对应的多个词袋,词袋包括多个预设关键词;将目标关键词与多个词袋中的预设关键词进行匹配;当目标问题包含了一个词袋时,根据相匹配的词袋对应的问题类别对目标问题进行分类;当目标问题包含了多个词袋时,根据相匹配的多个词袋包含预设关键词的数量和/或权重确定相匹配的多个词袋的优先级,按照优先级对目标问题进行分类。
在一个实施例中,目标分词包括停用词或标点符号;计算机程序被处理器执行时还实现以下步骤:对多个目标分词进行过滤,删除停用词和标点符号;对过滤后的多个目标分词进行同义词替换和/或命名实体替换;将替换后的多个目标分词作为目标关键词。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取问题语料;问题语料包括多个问题类别以及每个问题类别对应的多个预设问题;对多个预设问题进行预处理,得到每个预设问题对应的一个或多个中间关键词;计算每个中间关键词的TF-IDF值,根据TF-IDF值对多个中间关键词进行筛选,将筛选得到的多个中间关键词作为预设关键词;利用每个预设问题对应的一个或多个预设关键词,生成相应预设问题的词袋,将词袋与相应的问题类别进行关联。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据TF-IDF值对多个中间关键词进行排序;按照排序对多个中间关键词进行遍历,若当前顺序的中间关键词的TF-IDF值超过预设倍数的下一顺序中间关键词的TF-IDF值,将当前顺序的中间关键词与下一顺序中间关键词之间的位置作为截取位置;根据截取位置截取排序靠前的多个中间关键词,将截取到的多个中间关键词作为预设关键词。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:对多个词袋是否重复进行校验;当存在多个词袋发生重复时,获取发生重复的多个词袋,在获取到的每个词袋对应的预设问题中筛选一个标识词,将标识词添加至相应预设问题的词袋,返回对多个词袋是否重复进行校验的步骤;当不存在多个词袋发生重复时,将多个词袋与相应的问题类别进行关联。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取问题语料,问题语料包括多个问题类别以及每个问题类别对应的多个预设问题;对多个预设问题进行预处理,得到每个预设问题对应的预设关键词;计算每个预设关键词的哈希值;对每个预设问题对应的多个预设关键词的哈希值进行求和,得到相应预设问题对应的哈希值;将每个预设问题对应的哈希值与相应的问题类别进行关联;对多个问题类别以及关联的哈希值进行存储。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:当相匹配的多个词袋包含预设关键词的数量不同时,根据预设关键词的数量确定多个词袋的优先级;当相匹配的多个词袋包含预设关键词的数量相同时,根据预设关键词的权重确定多个词袋的优先级;根据优先级最高的词袋对应的问题类别对目标问题进行分类。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种问题分类方法,所述方法包括:
获取目标问题,对所述目标问题进行拆分处理,得到多个目标分词;
将其中一个或多个目标分词确定为目标关键词;
获取预设的多个问题类别以及每个问题类别对应的多个词袋,所述词袋包括多个预设关键词;
将所述目标关键词与多个词袋中的预设关键词进行匹配;
当所述目标问题包含了一个词袋时,根据相匹配的词袋对应的问题类别对所述目标问题进行分类;
当所述目标问题包含了多个词袋时,根据相匹配的多个词袋包含预设关键词的数量和/或权重确定相匹配的多个词袋的优先级,按照所述优先级对所述目标问题进行分类。
2.根据权利要求1所述的方法,其特征在于,所述目标分词包括停用词或标点符号;将其中一个或多个目标分词确定为目标关键词的步骤,包括:
对多个目标分词进行过滤,删除所述停用词和所述标点符号;
对过滤后的多个目标分词进行同义词替换和/或命名实体替换;
将替换后的多个目标分词作为目标关键词。
3.根据权利要求1所述的方法,其特征在于,在获取预设的多个问题类别以及每个问题类别对应的多个词袋的步骤之前,还包括:
获取问题语料;所述问题语料包括多个问题类别以及每个问题类别对应的多个预设问题;
对多个预设问题进行预处理,得到每个预设问题对应的一个或多个中间关键词;计算每个中间关键词的TF-IDF值,根据所述TF-IDF值对多个中间关键词进行筛选,将筛选得到的多个中间关键词作为预设关键词;
利用每个预设问题对应的一个或多个预设关键词,生成相应预设问题的词袋,将所述词袋与相应的问题类别进行关联。
4.根据权利要求3所述的方法,其特征在于,根据TF-IDF值对多个中间关键词进行筛选,将筛选得到的多个中间关键词作为预设关键词的步骤,包括:
根据所述TF-IDF值对多个中间关键词进行排序;
按照排序对多个中间关键词进行遍历,若当前顺序的中间关键词的TF-IDF值超过预设倍数的下一顺序中间关键词的TF-IDF值,将所述当前顺序的中间关键词与所述下一顺序中间关键词之间的位置作为截取位置;
根据所述截取位置截取排序靠前的多个中间关键词,将截取到的多个中间关键词作为预设关键词。
5.根据权利要求3所述的方法,其特征在于,将所述词袋与相应的问题类别进行关联的步骤,包括:
对多个词袋是否重复进行校验;
当存在多个词袋发生重复时,获取发生重复的多个词袋,在获取到的每个词袋对应的预设问题中筛选一个标识词,将所述标识词添加至相应预设问题的词袋,返回所述对多个词袋是否重复进行校验的步骤;
当不存在多个词袋发生重复时,将多个词袋与相应的问题类别进行关联。
6.根据权利要求1所述的方法,其特征在于,在获取预设的多个问题类别以及每个问题类别对应的多个词袋的步骤之前,还包括:
获取问题语料,所述问题语料包括多个问题类别以及每个问题类别对应的多个预设问题;
对多个预设问题进行预处理,得到每个预设问题对应的预设关键词;
计算每个所述预设关键词的哈希值;
对每个预设问题对应的多个预设关键词的哈希值进行求和,得到相应预设问题对应的哈希值;
将每个预设问题对应的哈希值与相应的问题类别进行关联;
对多个问题类别以及关联的哈希值进行存储。
7.根据权利要求1所述的方法,其特征在于,根据相匹配的多个词袋包含预设关键词的数量和/或权重确定相匹配的多个词袋的优先级,按照所述优先级对所述目标问题进行分类的步骤,包括:
当相匹配的多个词袋包含预设关键词的数量不同时,根据所述预设关键词的数量确定多个词袋的优先级;
当相匹配的多个词袋包含预设关键词的数量相同时,根据所述预设关键词的权重确定多个词袋的优先级;
根据所述优先级最高的词袋对应的问题类别对所述目标问题进行分类。
8.一种问题分类装置,所述装置包括:
关键词提取模块,用于获取目标问题,对所述目标问题进行拆分处理,得到多个目标分词;将其中一个或多个目标分词确定为目标关键词;
词袋匹配模块,用于获取预设的多个问题类别以及每个问题类别对应的多个词袋,所述词袋包括多个预设关键词;将所述目标关键词与多个词袋中的预设关键词进行匹配;
问题分类模块,用于当所述目标问题包含了一个词袋时,根据相匹配的词袋对应的问题类别对所述目标问题进行分类;当所述目标问题包含了多个词袋时,根据相匹配的多个词袋包含预设关键词的数量和/或权重确定相匹配的多个词袋的优先级,按照所述优先级对所述目标问题进行分类。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN201810064859.7A 2018-01-23 2018-01-23 问题分类方法、装置、计算机设备和存储介质 Expired - Fee Related CN108509482B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810064859.7A CN108509482B (zh) 2018-01-23 2018-01-23 问题分类方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810064859.7A CN108509482B (zh) 2018-01-23 2018-01-23 问题分类方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN108509482A true CN108509482A (zh) 2018-09-07
CN108509482B CN108509482B (zh) 2020-12-08

Family

ID=63375510

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810064859.7A Expired - Fee Related CN108509482B (zh) 2018-01-23 2018-01-23 问题分类方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN108509482B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344177A (zh) * 2018-09-18 2019-02-15 图普科技(广州)有限公司 一种模型组合方法及装置
CN109359194A (zh) * 2018-09-30 2019-02-19 北京字节跳动网络技术有限公司 用于预测信息类别的方法和装置
CN109376868A (zh) * 2018-09-30 2019-02-22 北京字节跳动网络技术有限公司 信息管理系统
CN109446525A (zh) * 2018-10-26 2019-03-08 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机可读存储介质和计算机设备
CN109460468A (zh) * 2018-10-23 2019-03-12 出门问问信息科技有限公司 法律相关文本的归类方法、归类装置及相应的电子设备
CN109597989A (zh) * 2018-11-14 2019-04-09 金色熊猫有限公司 诊断词归一方法及装置、存储介质、电子设备
CN109656999A (zh) * 2018-10-11 2019-04-19 平安科技(深圳)有限公司 大数据量的数据同步方法、设备、存储介质及装置
CN110069629A (zh) * 2019-03-16 2019-07-30 平安城市建设科技(深圳)有限公司 房屋交易任务处理方法、设备、存储介质及装置
CN110377708A (zh) * 2019-06-03 2019-10-25 广东幽澜机器人科技有限公司 一种多情景对话切换方法及装置
CN111581976A (zh) * 2020-03-27 2020-08-25 平安医疗健康管理股份有限公司 医学术语的标准化方法、装置、计算机设备及存储介质
CN111831809A (zh) * 2020-07-17 2020-10-27 北京首汽智行科技有限公司 一种问题文本关键字提取方法
CN112445782A (zh) * 2020-12-10 2021-03-05 深圳市中博科创信息技术有限公司 一种面向客户服务的企业知识库管理方法
CN112463929A (zh) * 2020-12-11 2021-03-09 广东电网有限责任公司佛山供电局 一种故障信息的自动分类方法
CN112749079A (zh) * 2019-10-31 2021-05-04 中国移动通信集团浙江有限公司 软件测试的缺陷分类方法、装置及计算设备
CN113360651A (zh) * 2021-06-04 2021-09-07 清远华奥光电仪器有限公司 一种基于布鲁姆教学目标分类法进行课堂提问的分类模型训练方法、方法、装置和存储介质
CN113468886A (zh) * 2021-07-28 2021-10-01 拉扎斯网络科技(上海)有限公司 工单处理方法、装置及计算机设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000148770A (ja) * 1998-11-06 2000-05-30 Nippon Telegr & Teleph Corp <Ntt> 問合せ文書の分類装置および方法ならびに当該方法を記述したプログラムを記録した記録媒体
CN102073707A (zh) * 2010-12-22 2011-05-25 百度在线网络技术(北京)有限公司 用于实时识别短文本类别信息的方法、装置及计算机设备
CN106503184A (zh) * 2016-10-24 2017-03-15 海信集团有限公司 确定目标文本所属业务类别的方法及装置
CN106649868A (zh) * 2016-12-30 2017-05-10 首都师范大学 问答匹配方法及装置
CN106777232A (zh) * 2016-12-26 2017-05-31 上海智臻智能网络科技股份有限公司 问答抽取方法、装置及终端
CN106778862A (zh) * 2016-12-12 2017-05-31 上海智臻智能网络科技股份有限公司 一种信息分类方法及装置
CN107133305A (zh) * 2017-04-28 2017-09-05 上海斐讯数据通信技术有限公司 一种聊天机器人知识库自动构建装置及其方法
CN107608969A (zh) * 2017-09-25 2018-01-19 曾传德 用于大批量文字的相似程度判断方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000148770A (ja) * 1998-11-06 2000-05-30 Nippon Telegr & Teleph Corp <Ntt> 問合せ文書の分類装置および方法ならびに当該方法を記述したプログラムを記録した記録媒体
CN102073707A (zh) * 2010-12-22 2011-05-25 百度在线网络技术(北京)有限公司 用于实时识别短文本类别信息的方法、装置及计算机设备
CN106503184A (zh) * 2016-10-24 2017-03-15 海信集团有限公司 确定目标文本所属业务类别的方法及装置
CN106778862A (zh) * 2016-12-12 2017-05-31 上海智臻智能网络科技股份有限公司 一种信息分类方法及装置
CN106777232A (zh) * 2016-12-26 2017-05-31 上海智臻智能网络科技股份有限公司 问答抽取方法、装置及终端
CN106649868A (zh) * 2016-12-30 2017-05-10 首都师范大学 问答匹配方法及装置
CN107133305A (zh) * 2017-04-28 2017-09-05 上海斐讯数据通信技术有限公司 一种聊天机器人知识库自动构建装置及其方法
CN107608969A (zh) * 2017-09-25 2018-01-19 曾传德 用于大批量文字的相似程度判断方法

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344177A (zh) * 2018-09-18 2019-02-15 图普科技(广州)有限公司 一种模型组合方法及装置
CN109376868B (zh) * 2018-09-30 2021-06-25 北京字节跳动网络技术有限公司 信息管理系统
CN109376868A (zh) * 2018-09-30 2019-02-22 北京字节跳动网络技术有限公司 信息管理系统
CN109359194B (zh) * 2018-09-30 2020-10-20 北京字节跳动网络技术有限公司 用于预测信息类别的方法和装置
CN109359194A (zh) * 2018-09-30 2019-02-19 北京字节跳动网络技术有限公司 用于预测信息类别的方法和装置
CN109656999A (zh) * 2018-10-11 2019-04-19 平安科技(深圳)有限公司 大数据量的数据同步方法、设备、存储介质及装置
CN109656999B (zh) * 2018-10-11 2024-03-15 平安科技(深圳)有限公司 大数据量的数据同步方法、设备、存储介质及装置
CN109460468A (zh) * 2018-10-23 2019-03-12 出门问问信息科技有限公司 法律相关文本的归类方法、归类装置及相应的电子设备
CN109446525A (zh) * 2018-10-26 2019-03-08 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机可读存储介质和计算机设备
CN109597989A (zh) * 2018-11-14 2019-04-09 金色熊猫有限公司 诊断词归一方法及装置、存储介质、电子设备
CN110069629A (zh) * 2019-03-16 2019-07-30 平安城市建设科技(深圳)有限公司 房屋交易任务处理方法、设备、存储介质及装置
CN110377708A (zh) * 2019-06-03 2019-10-25 广东幽澜机器人科技有限公司 一种多情景对话切换方法及装置
CN112749079A (zh) * 2019-10-31 2021-05-04 中国移动通信集团浙江有限公司 软件测试的缺陷分类方法、装置及计算设备
CN112749079B (zh) * 2019-10-31 2023-12-26 中国移动通信集团浙江有限公司 软件测试的缺陷分类方法、装置及计算设备
CN111581976B (zh) * 2020-03-27 2023-07-21 深圳平安医疗健康科技服务有限公司 医学术语的标准化方法、装置、计算机设备及存储介质
CN111581976A (zh) * 2020-03-27 2020-08-25 平安医疗健康管理股份有限公司 医学术语的标准化方法、装置、计算机设备及存储介质
CN111831809A (zh) * 2020-07-17 2020-10-27 北京首汽智行科技有限公司 一种问题文本关键字提取方法
CN112445782A (zh) * 2020-12-10 2021-03-05 深圳市中博科创信息技术有限公司 一种面向客户服务的企业知识库管理方法
CN112463929A (zh) * 2020-12-11 2021-03-09 广东电网有限责任公司佛山供电局 一种故障信息的自动分类方法
CN113360651A (zh) * 2021-06-04 2021-09-07 清远华奥光电仪器有限公司 一种基于布鲁姆教学目标分类法进行课堂提问的分类模型训练方法、方法、装置和存储介质
CN113468886A (zh) * 2021-07-28 2021-10-01 拉扎斯网络科技(上海)有限公司 工单处理方法、装置及计算机设备

Also Published As

Publication number Publication date
CN108509482B (zh) 2020-12-08

Similar Documents

Publication Publication Date Title
CN108509482A (zh) 问题分类方法、装置、计算机设备和存储介质
Marie-Sainte et al. Firefly algorithm based feature selection for Arabic text classification
Günther et al. Word counts and topic models: Automated text analysis methods for digital journalism research
CN108446295A (zh) 信息检索方法、装置、计算机设备和存储介质
CN109740152B (zh) 文本类目的确定方法、装置、存储介质和计算机设备
CN111767716B (zh) 企业多级行业信息的确定方法、装置及计算机设备
CN108376151A (zh) 问题分类方法、装置、计算机设备和存储介质
CN109766438A (zh) 简历信息提取方法、装置、计算机设备和存储介质
CN110335180A (zh) 案件立案材料智能审查装置
CN106886512A (zh) 文章分类方法和装置
CN110990676A (zh) 一种社交媒体热点主题提取方法与系统
CN110032622A (zh) 关键词确定方法、装置、设备及计算机可读存储介质
CN112052396A (zh) 课程匹配方法、系统、计算机设备和存储介质
CN110990587B (zh) 基于主题模型的企业关系发现方法及系统
Tahmasebi A Study on Word2Vec on a Historical Swedish Newspaper Corpus.
Bhole et al. Extracting named entities and relating them over time based on Wikipedia
JP6583899B1 (ja) コンピュータ、データ要素提示方法、及びプログラム。
CN110347806A (zh) 原创文本甄别方法、装置、设备与计算机可读存储介质
CN112948429B (zh) 一种数据报送方法、装置和设备
Cação et al. Deepagé: Answering questions in portuguese about the brazilian environment
Neerbek et al. A real-world data resource of complex sensitive sentences based on documents from the monsanto trial
CN110532538A (zh) 财产纠纷裁判文书关键实体抽取算法
Kernot Can Three Pronouns Discriminate Identity in Writing?
Balaji et al. Finding related research papers using semantic and co-citation proximity analysis
CN107590163A (zh) 文本特征选择的方法、装置和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20201208

Termination date: 20220123