CN109871437B - 用于用户问题语句处理的方法及装置 - Google Patents

用于用户问题语句处理的方法及装置 Download PDF

Info

Publication number
CN109871437B
CN109871437B CN201811452424.6A CN201811452424A CN109871437B CN 109871437 B CN109871437 B CN 109871437B CN 201811452424 A CN201811452424 A CN 201811452424A CN 109871437 B CN109871437 B CN 109871437B
Authority
CN
China
Prior art keywords
word
question sentence
standard
user
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811452424.6A
Other languages
English (en)
Other versions
CN109871437A (zh
Inventor
曹绍升
张赏
周俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811452424.6A priority Critical patent/CN109871437B/zh
Publication of CN109871437A publication Critical patent/CN109871437A/zh
Application granted granted Critical
Publication of CN109871437B publication Critical patent/CN109871437B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了用于用户问题语句处理的方法及装置。所述方法包括:基于经过分词处理后的用户问题语句和经过分词处理后的至少一个标准问题语句,确定所述用户问题语句与所述至少一个标准问题语句中的各个标准问题语句之间的相似度;以及基于所确定出的相似度,从所述至少一个标准问题语句中确定出与所述用户问题语句匹配的标准问题语句。利用该方法和装置能够将复杂多样的用户问题语句处理为标准问题语句,将复杂多样的用户问题语句处理为标准问题语句。

Description

用于用户问题语句处理的方法及装置
技术领域
本公开通常涉及计算机技术领域,具体地,涉及用于用户问题语句处理的方法及装置。
背景技术
目前针对各种不同的业务都有专门的客服工作。客服工作主要是对用户所提出的问题或需求等进行回应。传统的客服工作是由人工来回应用户的问题或所提出的要求。为了降低客服工作的人工成本,现有技术中已提出了智能客服系统,智能客服系统能够自动地对用户的问题或要求等进行回应。
不同用户有不同的语言习惯,因而用户提出的问题通常是复杂多样的。以物流业务领域为例,“快递员要价不合理”与“快递员不合理收费”在语义上所表达的意思是相同的。复杂多样的用户语句会增加系统的处理负担,会降低对用户问题的处理效率,进而导致不能及时回复用户。此外,复杂多样的用户语句如果不经过处理还会导致系统对其做出的回复不够准确。为了能够快速且准确地回复用户所提出的问题,智能客服系统需要对复杂多样的用户问题语句进行处理,以确定用户语句所表达的标准语义。
发明内容
鉴于上述,本公开提供了一种用于用户问题语句处理的方法及装置,该方法及装置能够基于用户问题语句与各个标准问题语句的相似度确定与用户问题语句匹配的标准问题语句,从而利用该方法和装置能够将复杂多样的用户问题语句处理为标准问题语句,将复杂多样的用户问题语句处理为标准问题语句。
根据本公开的一个方面,提供了一种用于用户问题语句处理的方法,包括:基于经过分词处理后的用户问题语句和经过分词处理后的至少一个标准问题语句,确定所述用户问题语句与所述至少一个标准问题语句中的各个标准问题语句之间的相似度;以及基于所确定出的相似度,从所述至少一个标准问题语句中确定出与所述用户问题语句匹配的标准问题语句。
可选的,在一个示例中,基于经过分词处理后的用户问题语句和经过分词处理后的至少一个标准问题语句,确定所述用户问题语句与所述至少一个标准问题语句中的各个标准问题语句之间的相似度可以包括:针对每个经过分词处理后的标准问题语句,基于该标准问题语句的各个词语的词向量和所述用户问题语句中的各个词语的词向量,确定所述用户问题语句中的各个词语与该标准问题语句中的各个词语之间的两两相似度;对于所述用户问题语句中的各个词语,将所确定出的该标准问题语句中的各个词语与该词语之间的相似度中的最大相似度值确定为该词语的相似度值;以及基于所确定出的所述用户问题语句中的各个词语的相似度值,确定所述用户问题语句与该标准问题语句之间的相似度。
可选的,在一个示例中,经过分词处理后的所述各个标准问题语句中的各个词语的词向量和经过分词处理后的所述用户问题语句中的各个词语的词向量可以是通过基于词向量集来对所述经过分词处理后的各个标准问题语句和所述经过分词处理后的用户问题语句进行词向量化后获得的。
可选的,在一个示例中,经过分词处理后的所述各个标准问题语句中的各个词语的词向量和经过分词处理后的所述用户问题语句中的各个词语的词向量可以是通过查询词向量集而获得的。
可选的,在一个示例中,所述词向量集可以是使用词向量训练模型来基于给定语料库训练出的。
可选的,在一个示例中,所述给定语料库可以包括至少一个历史用户问题语句和所述至少一个标准问题语句。
可选的,在一个示例中,所述方法还可以包括:对所述用户问题语句和所述至少一个标准问题语句进行分词处理。
可选的,在一个示例中,所述给定语料库可以包括经过分词处理和词语过滤处理后的至少一个历史用户问题语句以及经过分词处理和词语过滤处理后的至少一个标准问题语句。
可选的,在一个示例中,所述方法还可以包括:对经过分词处理后的所述用户问题语句和/或经过分词处理后的所述至少一个标准问题语句进行词语过滤处理。
可选的,在一个示例中,所述词语过滤处理可以包括:基于过滤词数据库来进行词语过滤处理。
可选的,在一个示例中,所述词语过滤处理可以包括:基于词语的词频来进行词语过滤处理。其中,所述词语的词频是基于给定语料库统计出的。
可选的,在一个示例中,所述词频是基于所述至少一个历史用户语句和所述至少一个标准语句统计出的。
可选的,在一个示例中,所述相似度可以采用下述中的一种来表征:夹角余弦距离;欧式距离;以及曼哈顿距离。
可选的,在一个示例中,所述词向量训练模型可以包括cw2vec模型或者word2vec模型。
可选的,在一个示例中,所述方法还可以包括:获取所述用户问题语句和所述至少一个标准问题语句。
根据本公开的另一方面,还提供一种用于用户问题语句处理的装置,包括:语句相似度确定单元,被配置为基于经过分词处理后的用户问题语句和经过分词处理后的至少一个标准问题语句,确定所述用户问题语句与所述各个标准问题语句中的各个标准问题语句之间的相似度;以及标准问题语句确定单元,被配置为基于所确定出的相似度,从所述至少一个标准问题语句中确定出与所述用户问题语句匹配的标准问题语句。
可选的,在一个示例中,所述语句相似度确定单元可以包括:两两相似度确定模块,被配置为针对每个标准问题语句,基于该标准问题语句的各个词语的词向量以及所述用户问题语句中的各个词语的词向量,确定所述用户问题语句中的各个词语与该标准问题语句中的各个词语之间的两两相似度;词语相似度确定模块,被配置为针对每个标准问题语句,对于所述用户问题语句中的各个词语,将所确定出的该标准问题语句中的各个词语与该词语之间的相似度中的最大相似度值确定为该词语的相似度值;以及语句相似度确定模块,被配置为针对每个标准问题语句,基于所确定出的所述用户问题语句中的各个词语的相似度值,确定所述用户问题语句与该标准问题语句之间的相似度。
可选的,在一个示例中,所述语句相似度确定单元还可以包括:语句词向量化模块,被配置为在确定所述用户问题语句中的各个词语与至少一个标准问题语句中各个标准问题语句中的各个词语之间的两两相似度之前,基于词向量集,对所述用户问题语句以及所述各个标准问题语句进行词向量化。
可选的,在一个示例中,所述装置还可以包括:分词处理单元,被配置为对所述用户问题语句和所述至少一个标准问题语句进行分词处理。
可选的,在一个示例中,所述装置还可以包括:词语过滤单元,被配置为对经过分词处理后的所述用户问题语句和/或经过分词处理后的所述至少一个标准问题语句进行词语过滤处理。
可选的,在一个示例中,所述词语过滤单元可以被配置为:基于过滤词数据库,对经过分词处理后的所述用户问题语句和/或经过分词处理后的所述至少一个标准问题语句进行词语过滤处理。
可选的,在一个示例中,所述词语过滤单元可以被配置为:基于词语的词频,对经过分词处理后的所述用户问题语句和/或经过分词处理后的所述至少一个标准问题语句进行词语过滤处理。其中,所述词语的词频是基于给定语料库统计出的。
可选地,在一个示例中,所述装置还可以包括:语句获取单元,被配置为获取所述至少一个历史用户问题语句和所述至少一个标准问题语句。
根据本公开的另一方面,还提供一种计算设备,包括:至少一个处理器,存储器,所述存储器存储指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如上所述的用于用户问题语句处理的方法。
根据本公开的另一方面,还提供一种非暂时性机器可读存储介质,其存储有可执行指令,所述指令当被执行时使得所述机器执行如上所述的用于用户问题语句处理的方法。
利用本公开的方法和装置,通过确定用户问题语句和各个标准问题语句之间的相似度,并基于所确定的相似度确定与用户问题语句匹配的标准问题语句,从而能够将复杂多样的用户问题语句处理为标准问题语句,使得用户问题语句能够快速准确地被识别并得以回答。
利用本公开的方法和装置,通过确定每个标准问题语句中的各个词语与用户问题语句中的各个词语的两两相似度,并将标准问题语句中与用户问题语句中的各个词语的相似度最大值作为与该词语的相似度,进而基于每个词语的相似度确定用户问题语句与各个标准问题语句之间的相似度,从而在将标准问题语句与用户问题语句进行匹配时能够得到全局最优的匹配结果。
利用本公开的方法和装置,在确定用户问题语句中的各个词语与各个标准问题语句中的各个词语的相似度之前,将用户问题语句和各个标准问题语句词向量化,从而在确定相似度时不必再一一查找各个词语的词向量,而能够直接基于词向量表示的语句中的各个词向量确定词语与词语之间的相似度,进而能够提高确定效率。
利用本公开的方法和装置,通过对经过分词处理后的历史用户问题语句和标准问题语句进行词向量训练以得到词向量集,进而基于该词向量集确定用户问题语句和各个标准问题语句之间的相似度,从而能够使基于更加贴近相应业务领域的语境的词向量集处理用户问题语句,以提高对用户问题语句的处理效率和处理结果的准确度。
利用本公开的方法和装置,在对经过分词处理和词语过滤处理后的历史用户问题语句和标准问题语句进行词向量训练以得到词向量集,从而能够减少词语的数量,进而减小对词向量训练的开销和训练时间,并能提高对用户问题语句进行处理时的开销,提高处理效率。
利用本公开的方法和装置,过滤用户问题语句和标准问题语句中的出现词频大于预定词频的词语,能够减少在确定与用户问题语句匹配的标准问题语句时需要处理的词语数量,从而提高对用户问题语句的处理效率和处理开销。
附图说明
通过参照以下的附图,可以实现对于本公开内容的本质和优点的进一步理解。在附图中,类似组件或特征可以具有相同的附图标记。附图是用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与以下的具体实施方式一起用于解释本公开的实施例,但并不构成对本公开的实施例的限制。在附图中:
图1示出了根据本公开的一个实施例的用于用户问题语句处理的方法的流程图;
图2示出了根据本公开的一个实施例的用于用户问题语句处理的方法中的相似度确定过程的一个示例的流程图;
图3示出了根据本公开的另一实施例的用于用户问题语句处理的方法的流程图;
图4示出了根据本公开的一个实施例的用于用户问题语句处理的装置的结构框图;
图5示出了图4所示的用于用户问题语句处理的装置中的语句相似度确定单元的结构框图;
图6示出了根据本公开的另一实施例的用于用户问题语句处理的装置的结构框图;
图7示出了本公开的一个实施例的用于实现用于用户问题语句处理的方法的计算设备的结构框图。
具体实施方式
以下将参考示例实施方式讨论本文描述的主题。应该理解,讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题,并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本公开内容的保护范围的情况下,对所讨论的元素的功能和排列进行改变。各个示例可以根据需要,省略、替代或者添加各种过程或组件。另外,相对一些示例所描述的特征在其它例子中也可以进行组合。
如本文中使用的,术语“包括”及其变型表示开放的术语,含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术下面可以包括其他的定义,无论是明确的还是隐含的。除非上下文中明确地指明,否则一个术语的定义在整个说明书中是一致的。
现在结合附图来描述本公开的用于用户问题语句处理的方法及装置。
图1示出了根据本公开的一个实施例的用于用户问题语句处理的方法的流程图。
如图1所示,在块110,基于经过分词处理后的用户问题语句和经过分词处理后的至少一个标准问题语句,确定用户问题语句与至少一个标准问题语句中的各个标准问题语句之间的相似度。标准用户语句可以是从历史用户语句中总结出的,可以由人工对历史用户问题语句进行标注总结,也可以采用分类模型对历史用户问题语句进行分类后以得出标准问题语句。
在确定用户问题语句与各个标准问题语句之间的相似度之后,在块120,基于所确定出的相似度,从至少一个标准问题语句中确定出与用户问题语句匹配的标准问题语句。例如,可以将与用户问题语句的相似度最高的一个标准问题语句确定为与用户问题语句匹配的标准问题语句。在确定匹配的标准问题语句后,可将用户问题语句等效为该匹配的标准问题语句,从而系统可基于标准问题语句来识别问题语句,避免因不同用户提出的问题语句表达方式不同等原因而导致系统工作量过大或识别不准确,从进而提高相关业务领域的处理效率。
图2示出了根据本公开的一个实施例的用于用户问题语句处理的方法中的相似度确定过程的一个示例的流程图。
如图2所示,在块210,针对每个经过分词处理后的标准问题语句,基于该标准问题语句的各个词语的词向量和用户问题语句中的各个词语的词向量,确定用户问题语句中的各个词语与该标准问题语句中的各个词语之间的两两相似度。
例如,对于经过分词处理后的用户问题语句“快递员|要价|不|合理|”,如果经过分词处理后的至少一个标准问题语句中的一个标准问题语句为“快递|收费|不|合理”,则可以确定“快递员”与“快递”、“收费”、“不”、“合理”的相似度,和“要价”与“快递”、“收费”、“不”、“合理”的相似度,和“不”与“快递”、“收费”、“不”、“合理”的相似度,以及主“合理”与“快递”、“收费”、“不”、“合理”的相似度。由此能够确定用户问题语句中的各个词语与每个标准问题语句中的各个词语的相似度。
在一个示例中,经过分词处理后的各个标准问题语句中的各个词语的词向量和经过分词处理后的用户问题语句中的各个词语的词向量可以是通过基于词向量集来对经过分词处理后的各个标准问题语句和经过分词处理后的标准问题语句进行词向量化后获得的。词向量化是指将语句中的各个词换转换成词向量,从而以词向量的形式来表示各个语句。
例如,可以在确定上述两两相似度之前,通过查找词向量集的方式将经过分词处理后的用户问题语句和各个标准问题语句转换成词向量表示形式。例如,如果某一用户问题语句被分词处理后为“AB|C|DE|F”,其各个词语的词向量相应地为:AB对应于[X11,X12,X13,X14,X15,X16]、C对应于[X21,X22,X23,X24,X25,X26]、DE对应于[X31,X32,X33,X34,X35,X36]、F对应于[X41,X42,X43,X44,X45,X46]。则被词向量化“AB|C|DE|F”可以被表示为:[[X11,X12,X13,X14,X15,X16],[X21,X22,X23,X24,X25,X26],[X31,X32,X33,X34,X35,X36],[X41,X42,X43,X44,X45,X46]]。
词向量集可以是已训练好的通用词向量集。在一个示例中,词向量集还可以是使用词向量训练模型来基于给定语料库训练出的。词向量训练模型可以使用基于cw2vec算法的cw2vec模型,还可以使用基于word2vec算法的word2vec模型。在一个示例中,用于训练词向量集的给定语料库可以包括至少一个历史用户问题语句和至少一个标准问题语句。对历史用户问题语句和标准问题语句进行词向量训练而得到的词向量集更符合待处理的用户问题语句的语境,从而能够提高对用户问题语句的处理结果的准确性。历史用户问题语句例如可以从互联网收集而得到。
此外,在一个示例中,可以对用于训练词向量的给定语料库进行过滤处理,以过滤其中意义不大的词语,从而减少需要训练的词语的数量,进而减小词向量训练的开销,提高词向量训练效率。
当各个标准问题语句和用户问题语句被词向量化后,在确定各个词语之间的两两相似度时,可以不再一一查找各个词语的词向量,从而能够提高确定各个词语之间的两两相似度的效率。
此外,也可以不预先将经过分词处理后的用户问题语句和各个标准问题语句词向量化。在该情形下,在确定用户问题语句中的各个词语与各个标准问题语句中的各个词语的两两相似度时,可以是通过查询词向量集而获得各个词语的词向量以得到当前要确定相似度的两个词语的词向量,进而基于词向量确定该两个词语之间的相似度。由此,可以省略在确定词语与词语之间的两两相似度之间的词向量化环节。
在如上确定各个词语间的两两相似度之后,在块220,对于用户问题语句中的各个词语,将所确定出的该标准问题语句中的各个词语与该词语之间的相似度中的最大相似度值确定为该词语的相似度值。
例如,对于问题语句“快递员|要价|不|合理|”和标准问题语句为“快递|收费|不|合理”,通过块220的操作可以确定出“快递员”与“快递”的相似度最大(例如0.8),进而可将“快递员”与“快递”的相似度确定为“快递员”的相似度。通过此种方式可以依次确定“要价”的相似度是其与“收费”的相似度(例如0.9)、“不”的相似度为其与“不”的相似度为(例如1)、“合理”的相似度为其与“合理”的相似度(例如1)。
然后,在块230,基于所确定出的用户问题语句中的各个词语的相似度值,确定用户问题语句与该标准问题语句之间的相似度。在一个示例中,可以将如上确定的用户问题语句中的各个词语的相似度相加以得出用户问题语句与相应标准问题语句之间的相似度。还可以对各个词语的相似度求平均值或加权平均值,以得出用户问题语句与相应标准问题语句之间的相似度。
对于块210和块220的操作,还可以进行简单变形。例如,可以针对每个标准问题语句,确定该标准问题语句中的各个词语和用户问题语句中的各个词语的两两相似度。进而可对所确定的每对词语的相似度进行排序,从排序结果中选取与用户问题语句中的词语的数量相同数量的相似度最大的值。例如,对于“快递员|要价|不|合理|”,可以选取排序结果中相似度最大的前四个值作为该用户问题语句中的各个词语与标准问题语句中的相匹配的各个词语的相似度。然后可以在块230,基于这四个值确定该用户问题语句与朾应标准问题语句的相似度。
通过如上实施例,在确定用户问题语句与每个标准问题语句间的相似度时,能够获得全局最优解,使所确定的相似度是最准确的值,从而能够准确地确定与用户问题语句匹配的标准问题语句。
如上实施例中提及的相似度可以采用夹角余弦距离、欧式距离以及曼哈顿距离等表征方式中的任意一种来表征。
图3示出了根据本公开的另一实施例的用于用户问题语句处理的方法的流程图。
如图3所示,在块310,获取用户问题语句和至少一个标准问题语句。
然后,在块320,对所获取的用户问题语句和至少一个标准问题语句进行分词处理。当所获取的用户问题语句和至少一个标准问题语句本身已经过分词处理时,也可以不包括块320的操作。
在分词处理后,在块330,对经过分词处理后的用户问题语句和/或经过分词处理后的至少一个标准问题语句进行词语过滤处理。
在一个示例中,本公开中提及的词语过滤处理可以基于过滤词数据库来进行。过滤词数据库例如可以是停止词表,还可以是预先建立的相关领域的过滤词数据库。在一个示例中,可以基于给定语料库统计出在给定语料库中的词频,然后基于词语的词频来进行过滤处理。例如,可以过滤词频大于预定词频的词语。在一个示例中,用于统计词语的词频的给定语料库可以包括至少一个历史用户语句和至少一个标准问题语句。此时,词频是基于至少一个历史用户语句和至少一个标准语句统计出的。
在词语过滤处理后,在块340,可以基于经过分词处理和过滤处理后的用户问题语句和经过分词处理后和过滤处理后的至少一个标准问题语句,确定用户问题语句与至少一个标准问题语句中的各个标准问题语句之间的相似度。
通过词语过滤处理,能够将意义不大的词语滤除,从而减少相似度确定过程需要处理的词语的数量。例如,对于在给定语料库中的词频大于预定词频的词语,由于其出现频率很高,因而这些词语与大部分词语之间的距离(相似度)没有明显区别,因而对于问题语句语义的识别分类帮助不大。
然后,在块350,基于所确定出的相似度,从至少一个标准问题语句中确定出与用户问题语句匹配的标准问题语句。
图4示出了根据本公开的一个实施例的用于用户问题语句处理的装置(以下称为用户问题语句处理装置)400的结构框图。如图4所示,用户问题语句处理装置400包括语句相似度确定单元410和标准问题语句确定单元420。
语句相似度确定单元410被配置为基于经过分词处理后的用户问题语句和经过分词处理后的至少一个标准问题语句,确定用户问题语句与各个标准问题语句中的各个标准问题语句之间的相似度。标准问题语句确定单元420被配置为基于所确定出的相似度,从至少一个标准问题语句中确定出与用户问题语句匹配的标准问题语句。
图5示出了图4所示的用户问题语句处理装置400中的语句相似度确定单元410的结构框图。如图5所示,语句相似度确定单元410可以包括语句词向量化模块411、两两相似度确定模块412、词语相似度确定模块413、语句相似度确定模块414。
语句词向量化模块411被配置为在确定用户问题语句中的各个词语与至少一个标准问题语句中各个标准问题语句中的各个词语之间的两两相似度之前,基于词向量集,对用户问题语句以及所述各个标准问题语句进行词向量化。词向量集可以是通用词向量集,也可以是使用词向量训练模型基于给定语料库进行词向量训练而得到的。
由此,在后续确定词语与词语之间的两两相似度时不必一一查找各个词语的词向量。
两两相似度确定模块412被配置为针对每个标准问题语句,基于该标准问题语句的各个词语的词向量以及用户问题语句中的各个词语的词向量,确定用户问题语句中的各个词语与该标准问题语句中的各个词语之间的两两相似度。在确定出词语与词语之间的两两相似度之后,词语相似度确定模块413可以针对每个标准问题语句,对于用户问题语句中的各个词语,将所确定出的该标准问题语句中的各个词语与该词语之间的相似度中的最大相似度值确定为该词语的相似度值。然后,语句相似度确定模块414可以针对每个标准问题语句,基于所确定出的用户问题语句中的各个词语的相似度值,确定用户问题语句与该标准问题语句之间的相似度。
需要说明的是,图5中所示的语句词向量化模块411并不是必不可少的模块。在另一示例中,也可以不预先利用语句词向量化模块411将经过分词处理后的用户问题语句和各个标准问题语句词向量化。在该情形下,在确定用户问题语句中的各个词语与标准问题语句中的各个词语的两两相似度时,可以是通过查询词向量集而获得各个词语的词向量集以得到当前要确定的两个词语的词向量,进而基于词向量确定该两个词语之间的相似度。
图6示出了根据本公开另一实施例的用户问题语句处理装置600的结构框图。如图6所示,用户问题语句处理装置600包括语句获取单元610、分词处理单元620、词语过滤单元630、语句相似度确定单元640以及标准问题语句确定单元650。
语句获取单元610被配置为获取至少一个历史用户问题语句和所述至少一个标准问题语句。分词处理单元620被配置为对所述用户问题语句和所述至少一个标准问题语句进行分词处理。词语过滤单元630被配置为对经过分词处理后的所述用户问题语句和/或经过分词处理后的所述至少一个标准问题语句进行词语过滤处理。在进行过滤处理后,语句相似度确定单元640可以基于词向量集、经过分词处理后和过滤处理后的用户问题语句和经过分词处理后和过滤处理后的至少一个标准问题语句,确定用户问题语句与至少一个标准问题语句中的各个标准问题语句之间的相似度。然后,标准问题语句确定单元650可以基于所确定出的相似度,从至少一个标准问题语句中确定出与用户问题语句匹配的标准问题语句。
在一个示例中,词语过滤单元630可以被配置为基于过滤词数据库,对经过分词处理后的所述用户问题语句和/或经过分词处理后的所述至少一个标准问题语句进行词语过滤处理。在另一示例中,词语过滤单元630还可以被配置为基于词语的词频,对经过分词处理后的所述用户问题语句和/或经过分词处理后的所述至少一个标准问题语句进行词语过滤处理。词语的词频可以是基于给定语料库统计出的。
图6所示的分词处理单元620并不是必不可少的,当所获取的用户问题语句和至少一个标准问题用户已经过分词处理时,可以不需要分词处理单元620。
以上参照图4-6对用户问题语句处理装置进行了说明。需要说明的是,在以上参照图1-3对用户问题语句处理方法的说明中提及的细节同样适用于用户问题处理装置。
本公开的用户问题语句处理装置可以采用硬件实现,也可以采用软件或者硬件和软件的组合来实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。在本公开中,识别终端设备上显示的应用程序控件的装置例如可以利用计算设备实现。
图7示出了用于实现本公开的用于用户问题语句处理的方法的计算设备700的结构框图。从硬件层面而言,如图7所示,为本申请提供的用户问题处理装置740所在的计算设备的一种硬件结构图,除了图7所示的处理器710、非易失性存储器720、内存730、网络接口750以及内部总线760之外,实施例中装置所在的设备通常根据该设备的实际功能,还可以包括其他硬件,对此不再赘述。
根据该实施例,计算设备700可以包括至少一个处理器710,该至少一个处理器710执行在计算机可读存储介质(即,非易失性存储器720)中存储或编码的至少一个计算机可读指令(即,上述以软件形式实现的元素)。
在一个实施例中,在非易失性存储器720中存储计算机可执行指令,其当执行时使得至少一个处理器710:基于词向量集、经过分词处理后的用户问题语句和经过分词处理后的至少一个标准问题语句,确定所述用户问题语句与所述至少一个标准问题语句中的各个标准问题语句之间的相似度;以及基于所确定出的相似度,从所述至少一个标准问题语句中确定出与所述用户问题语句匹配的标准问题语句。
应该理解,在非易失性存储器720中存储的计算机可执行指令当执行时使得至少一个处理器710进行本公开的各个实施例中以上结合图1-6描述的各种操作和功能。
根据一个实施例,提供了一种例如非暂时性机器可读介质的程序产品。非暂时性机器可读介质可以具有指令(即,上述以软件形式实现的元素),该指令当被机器执行时,使得机器执行本公开的各个实施例中以上结合图1-6描述的各种操作和功能。
具体地,可以提供配有可读存储介质的系统或者装置,在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。在这种情况下,从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。
可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上或云上下载程序代码。
以上结合附图阐述的具体实施方式描述了示例性实施例,但并不表示可以实现的或者落入权利要求书的保护范围的所有实施例。在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”,并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的,具体实施方式包括具体细节。然而,可以在没有这些具体细节的情况下实施这些技术。在一些实例中,为了避免对所描述的实施例的概念造成难以理解,公知的结构和装置以框图形式示出。
以上结合附图详细描述了本公开的实施例的可选实施方式,但是,本公开的实施例并不限于上述实施方式中的具体细节,在本公开的实施例的技术构思范围内,可以对本公开的实施例的技术方案进行多种简单变型,这些简单变型均属于本公开的实施例的保护范围。
本公开内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本公开内容。对于本领域普通技术人员来说,对本公开内容进行的各种修改是显而易见的,并且,也可以在不脱离本公开内容的保护范围的情况下,将本文所定义的一般性原理应用于其它变型。因此,本公开内容并不限于本文所描述的示例和设计,而是与符合本文公开的原理和新颖性特征的最广范围相一致。

Claims (25)

1.一种用于用户问题语句处理的方法,包括:
基于经过分词处理后的用户问题语句和经过分词处理后的至少一个标准问题语句,确定所述用户问题语句与所述至少一个标准问题语句中的各个标准问题语句之间的相似度;以及
基于所确定出的相似度,从所述至少一个标准问题语句中确定出与所述用户问题语句匹配的标准问题语句;
其中,所述基于经过分词处理后的用户问题语句和经过分词处理后的至少一个标准问题语句,确定所述用户问题语句与所述至少一个标准问题语句中的各个标准问题语句之间的相似度包括:
针对每个标准问题语句,确定该标准问题语句中的各个词语和所述用户问题语句中的各个词语的两两相似度;
根据所确定的每对词语的相似度的大小,确定所述用户问题语句中的各个词语与该标准问题语句中的相匹配的各个词语的相似度;
基于所确定出的所述用户问题语句中的各个词语对应的相似度,确定所述用户问题语句与该标准问题语句之间的相似度。
2.如权利要求1所述的方法,其中,基于经过分词处理后的用户问题语句和经过分词处理后的至少一个标准问题语句,确定所述用户问题语句与所述至少一个标准问题语句中的各个标准问题语句之间的相似度包括:
针对每个经过分词处理后的标准问题语句,
基于该标准问题语句的各个词语的词向量和所述用户问题语句中的各个词语的词向量,确定所述用户问题语句中的各个词语与该标准问题语句中的各个词语之间的两两相似度;
对于所述用户问题语句中的各个词语,将所确定出的该标准问题语句中的各个词语与该词语之间的相似度中的最大相似度值确定为该词语的相似度值;以及
基于所确定出的所述用户问题语句中的各个词语的相似度值,确定所述用户问题语句与该标准问题语句之间的相似度。
3.如权利要求2所述的方法,其中,经过分词处理后的所述各个标准问题语句中的各个词语的词向量和经过分词处理后的所述用户问题语句中的各个词语的词向量是通过基于词向量集来对经过分词处理后的所述各个标准问题语句和经过分词处理后的所述用户问题语句进行词向量化后获得的。
4.如权利要求2所述的方法,其中,经过分词处理后的所述各个标准问题语句中的各个词语的词向量和经过分词处理后的所述用户问题语句中的各个词语的词向量是通过查询词向量集而获得的。
5.如权利要求3或4所述的方法,其中,所述词向量集是使用词向量训练模型来基于给定语料库训练出的。
6.如权利要求5所述的方法,其中,所述给定语料库包括至少一个历史用户问题语句和所述至少一个标准问题语句。
7.如权利要求1所述的方法,还包括:
对所述用户问题语句和所述至少一个标准问题语句进行分词处理。
8.如权利要求6所述的方法,其中,所述给定语料库包括经过分词处理和词语过滤处理后的至少一个历史用户问题语句以及所述经过分词处理和词语过滤处理后的至少一个标准问题语句。
9.如权利要求1所述的方法,还包括:
对经过分词处理后的所述用户问题语句和/或经过分词处理后的所述至少一个标准问题语句进行词语过滤处理。
10.如权利要求8或9所述的方法,其中,所述词语过滤处理包括:
基于过滤词数据库来进行词语过滤处理。
11.如权利要求8或9所述的方法,其中,所述词语过滤处理包括:
基于词语的词频来进行词语过滤处理,
其中,所述词语的词频是基于给定语料库统计出的。
12.如权利要求11所述的方法,其中,所述词频是基于所述至少一个历史用户语句和所述至少一个标准语句统计出的。
13.如权利要求1-3中任一项所述的方法,其中,所述相似度采用下述中的一种来表征:
夹角余弦距离;
欧式距离;以及
曼哈顿距离。
14.如权利要求5所述的方法,其中,所述词向量训练模型包括cw2vec模型或者word2vec模型。
15.如权利要求7所述的方法,还包括:
获取所述用户问题语句和所述至少一个标准问题语句。
16.一种用于用户问题语句处理的装置,包括:
语句相似度确定单元,被配置为基于经过分词处理后的用户问题语句和经过分词处理后的至少一个标准问题语句,确定所述用户问题语句与所述各个标准问题语句中的各个标准问题语句之间的相似度;以及
标准问题语句确定单元,被配置为基于所确定出的相似度,从所述至少一个标准问题语句中确定出与所述用户问题语句匹配的标准问题语句;
其中,所述语句相似度确定单元被进一步配置为:
针对每个标准问题语句,确定该标准问题语句中的各个词语和所述用户问题语句中的各个词语的两两相似度;
根据所确定的每对词语的相似度的大小,确定所述用户问题语句中的各个词语与该标准问题语句中的相匹配的各个词语的相似度;
基于所确定出的所述用户问题语句中的各个词语对应的相似度,确定所述用户问题语句与该标准问题语句之间的相似度。
17.如权利要求16所述的装置,其中,所述语句相似度确定单元包括:
两两相似度确定模块,被配置为针对每个标准问题语句,基于该标准问题语句的各个词语的词向量以及所述用户问题语句中的各个词语的词向量,确定所述用户问题语句中的各个词语与该标准问题语句中的各个词语之间的两两相似度;
词语相似度确定模块,被配置为针对每个标准问题语句,对于所述用户问题语句中的各个词语,将所确定出的该标准问题语句中的各个词语与该词语之间的相似度中的最大相似度值确定为该词语的相似度值;以及
语句相似度确定模块,被配置为针对每个标准问题语句,基于所确定出的所述用户问题语句中的各个词语的相似度值,确定所述用户问题语句与该标准问题语句之间的相似度。
18.如权利要求17所述的装置,其中,所述语句相似度确定单元还包括:
语句词向量化模块,被配置为在确定所述用户问题语句中的各个词语与至少一个标准问题语句中各个标准问题语句中的各个词语之间的两两相似度之前,基于词向量集,对所述用户问题语句以及所述各个标准问题语句进行词向量化。
19.如权利要求16所述的装置,还包括:
分词处理单元,被配置为对所述用户问题语句和所述至少一个标准问题语句进行分词处理。
20.如权利要求16所述的装置,还包括:
词语过滤单元,被配置为对经过分词处理后的所述用户问题语句和/或经过分词处理后的所述至少一个标准问题语句进行词语过滤处理。
21.如权利要求20所述的装置,其中,所述词语过滤单元被配置为:
基于过滤词数据库,对经过分词处理后的所述用户问题语句和/或经过分词处理后的所述至少一个标准问题语句进行词语过滤处理。
22.如权利要求20所述的装置,其中,所述词语过滤单元被配置为:
基于词语的词频,对经过分词处理后的所述用户问题语句和/或经过分词处理后的所述至少一个标准问题语句进行词语过滤处理,
其中,所述词语的词频是基于给定语料库统计出的。
23.如权利要求19所述的装置,还包括:
语句获取单元,被配置为获取所述用户问题语句和所述至少一个标准问题语句。
24.一种计算设备,包括:
至少一个处理器,
存储器,所述存储器存储指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如权利要求1到15中任一所述的方法。
25.一种非暂时性机器可读存储介质,其存储有可执行指令,所述指令当被执行时使得所述机器执行如权利要求1到15中任一所述的方法。
CN201811452424.6A 2018-11-30 2018-11-30 用于用户问题语句处理的方法及装置 Active CN109871437B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811452424.6A CN109871437B (zh) 2018-11-30 2018-11-30 用于用户问题语句处理的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811452424.6A CN109871437B (zh) 2018-11-30 2018-11-30 用于用户问题语句处理的方法及装置

Publications (2)

Publication Number Publication Date
CN109871437A CN109871437A (zh) 2019-06-11
CN109871437B true CN109871437B (zh) 2023-04-21

Family

ID=66917013

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811452424.6A Active CN109871437B (zh) 2018-11-30 2018-11-30 用于用户问题语句处理的方法及装置

Country Status (1)

Country Link
CN (1) CN109871437B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110647614B (zh) * 2019-08-01 2023-05-23 平安科技(深圳)有限公司 智能问答方法、装置、介质及电子设备
CN110569342B (zh) * 2019-08-15 2023-04-07 创新先进技术有限公司 问题匹配方法、装置、设备及计算机可读存储介质
CN110851579B (zh) * 2019-11-06 2023-03-10 杨鑫蛟 用户意图识别方法、系统、移动终端及存储介质
CN110781687B (zh) * 2019-11-06 2021-07-06 腾讯科技(深圳)有限公司 相同意图语句的获取方法及装置
CN115879458A (zh) * 2022-04-08 2023-03-31 北京中关村科金技术有限公司 一种语料扩充方法、装置及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183714A (zh) * 2015-08-27 2015-12-23 北京时代焦点国际教育咨询有限责任公司 句子相似度计算方法及装置
CN105677636A (zh) * 2015-12-30 2016-06-15 上海智臻智能网络科技股份有限公司 智能问答系统的信息处理方法及信息处理装置
CN106484664A (zh) * 2016-10-21 2017-03-08 竹间智能科技(上海)有限公司 一种短文本间相似度计算方法
CN107315772A (zh) * 2017-05-24 2017-11-03 北京邮电大学 基于深度学习的问题匹配方法以及装置
CN107679039A (zh) * 2017-10-17 2018-02-09 北京百度网讯科技有限公司 用于确定语句意图的方法和装置
CN108334495A (zh) * 2018-01-30 2018-07-27 国家计算机网络与信息安全管理中心 短文本相似度计算方法及系统
CN108595619A (zh) * 2018-04-23 2018-09-28 海信集团有限公司 一种问答方法及设备
CN108804641A (zh) * 2018-06-05 2018-11-13 鼎易创展咨询(北京)有限公司 一种文本相似度的计算方法、装置、设备和存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183714A (zh) * 2015-08-27 2015-12-23 北京时代焦点国际教育咨询有限责任公司 句子相似度计算方法及装置
CN105677636A (zh) * 2015-12-30 2016-06-15 上海智臻智能网络科技股份有限公司 智能问答系统的信息处理方法及信息处理装置
CN106484664A (zh) * 2016-10-21 2017-03-08 竹间智能科技(上海)有限公司 一种短文本间相似度计算方法
CN107315772A (zh) * 2017-05-24 2017-11-03 北京邮电大学 基于深度学习的问题匹配方法以及装置
CN107679039A (zh) * 2017-10-17 2018-02-09 北京百度网讯科技有限公司 用于确定语句意图的方法和装置
CN108334495A (zh) * 2018-01-30 2018-07-27 国家计算机网络与信息安全管理中心 短文本相似度计算方法及系统
CN108595619A (zh) * 2018-04-23 2018-09-28 海信集团有限公司 一种问答方法及设备
CN108804641A (zh) * 2018-06-05 2018-11-13 鼎易创展咨询(北京)有限公司 一种文本相似度的计算方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN109871437A (zh) 2019-06-11

Similar Documents

Publication Publication Date Title
CN109871437B (zh) 用于用户问题语句处理的方法及装置
US11544459B2 (en) Method and apparatus for determining feature words and server
WO2021174717A1 (zh) 文本意图识别方法、装置、计算机设备和存储介质
CN107122369B (zh) 一种业务数据处理方法、装置和系统
CN110555372A (zh) 数据录入方法、装置、设备及存储介质
US20220004878A1 (en) Systems and methods for synthetic document and data generation
US10796196B2 (en) Large scale image recognition using global signatures and local feature information
CN110032724B (zh) 用于识别用户意图的方法及装置
US20210200768A1 (en) Responding to similarity queries using vector dimensionality reduction
US20240012846A1 (en) Systems and methods for parsing log files using classification and a plurality of neural networks
WO2020114100A1 (zh) 一种信息处理方法、装置和计算机存储介质
WO2019062534A1 (zh) 一种图像检索方法、装置、设备及可读存储介质
CN112329460A (zh) 文本的主题聚类方法、装置、设备及存储介质
KR20190128246A (ko) 검색 방법 및 장치 및 비-일시적 컴퓨터-판독가능 저장 매체
Sundara Vadivel et al. An efficient CBIR system based on color histogram, edge, and texture features
CN112989990A (zh) 医疗票据识别方法、装置、设备及存储介质
CN115879017A (zh) 一种电力敏感数据自动化分类分级方法、装置及存储介质
CN112417175A (zh) 面向维修工单的文档检索方法、系统、计算机及存储介质
CN110083731B (zh) 图像检索方法、装置、计算机设备及存储介质
US11281714B2 (en) Image retrieval
CN111898378B (zh) 政企客户的行业分类方法和装置、电子设备、存储介质
CN111026921A (zh) 基于图的关联关系获取方法、装置及计算机设备
CN110287943B (zh) 图像的对象识别方法、装置、电子设备及存储介质
CN115309891A (zh) 一种文本分类方法、装置、设备及计算机存储介质
CN107203570B (zh) 搜索关键字频度解析方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant